論文の概要: The Safety-Privacy Tradeoff in Linear Bandits
- arxiv url: http://arxiv.org/abs/2504.16371v1
- Date: Wed, 23 Apr 2025 02:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.98278
- Title: The Safety-Privacy Tradeoff in Linear Bandits
- Title(参考訳): リニアバンドにおける安全民営化のトレードオフ
- Authors: Arghavan Zibaie, Spencer Hutchinson, Ramtin Pedarsani, Mahnoosh Alizadeh,
- Abstract要約: 本稿では,異なるエージェントのランダムな応答をモデル化し,線形帯域問題の集合を考察する。
我々は、中央コーディネータが、後悔の最小化を目的とし、各バンディットで演奏する行動を選択する必要があると仮定する。
- 参考スコア(独自算出の注目度): 14.75695352321115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a collection of linear stochastic bandit problems, each modeling the random response of different agents to proposed interventions, coupled together by a global safety constraint. We assume a central coordinator must choose actions to play on each bandit with the objective of regret minimization, while also ensuring that the expected response of all agents satisfies the global safety constraints at each round, in spite of uncertainty about the bandits' parameters. The agents consider their observed responses to be private and in order to protect their sensitive information, the data sharing with the central coordinator is performed under local differential privacy (LDP). However, providing higher level of privacy to different agents would have consequences in terms of safety and regret. We formalize these tradeoffs by building on the notion of the sharpness of the safety set - a measure of how the geometric properties of the safe set affects the growth of regret - and propose a unilaterally unimprovable vector of privacy levels for different agents given a maximum regret budget.
- Abstract(参考訳): 線形確率的バンディット問題の集合を考察し、各エージェントのランダムな応答をモデル化し、大域的安全制約と組み合わせて検討する。
中心コーディネータは,各バンドイットの最小化を目的とし,各ラウンドにおける各エージェントの期待する応答が,バンドイットのパラメータの不確実性にもかかわらず,各ラウンドにおけるグローバルな安全制約を満たすことを保証しながら,各バンドイットでプレーする行動を選択する必要があると仮定する。
エージェントは、観察された応答をプライベートとみなし、機密情報を保護するために、中央コーディネータとのデータをローカル差分プライバシー(LDP)の下で共有する。
しかし、異なるエージェントにより高いレベルのプライバシを提供することは、安全性と後悔の点で結果をもたらす。
我々は、安全セットの鋭さ(安全セットの幾何学的性質が後悔の成長にどのように影響するかの尺度)の概念に基づいて、これらのトレードオフを形式化し、最大の後悔予算を与えられた異なるエージェントに対して、一方的に改善不可能なプライバシーレベルのベクトルを提案する。
関連論文リスト
- Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Optimal Federated Learning for Nonparametric Regression with Heterogeneous Distributed Differential Privacy Constraints [5.3595271893779906]
本研究では,異なるサーバにまたがる分散サンプルのコンテキストにおける非パラメトリック回帰のためのフェデレーション学習について検討した。
統計の正確さとプライバシーの保護のトレードオフに光を当てている。
論文 参考訳(メタデータ) (2024-06-10T19:34:07Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints [1.1549572298362787]
本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。
これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
論文 参考訳(メタデータ) (2023-10-22T16:36:03Z) - Price of Safety in Linear Best Arm Identification [6.82469220191368]
線形フィードバックを用いた安全ベストアーム識別フレームワークを提案する。
エージェントは、未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。
本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:21Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。