論文の概要: Path-Specific Objectives for Safer Agent Incentives
- arxiv url: http://arxiv.org/abs/2204.10018v1
- Date: Thu, 21 Apr 2022 11:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:36:46.207898
- Title: Path-Specific Objectives for Safer Agent Incentives
- Title(参考訳): サファーエージェントインセンティブのためのパス特異的対象物
- Authors: Sebastian Farquhar, Ryan Carey, Tom Everitt
- Abstract要約: 状態の'delicate'部分で設定を記述します。
次にエージェントを訓練し、状態の繊細な部分によって媒介されない期待されたリターンに対する行動の因果効果を最大化する。
結果として生じるエージェントは、繊細な状態を制御するインセンティブを持っていない。
- 参考スコア(独自算出の注目度): 15.759504531768219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a general framework for training safe agents whose naive
incentives are unsafe. As an example, manipulative or deceptive behaviour can
improve rewards but should be avoided. Most approaches fail here: agents
maximize expected return by any means necessary. We formally describe settings
with 'delicate' parts of the state which should not be used as a means to an
end. We then train agents to maximize the causal effect of actions on the
expected return which is not mediated by the delicate parts of state, using
Causal Influence Diagram analysis. The resulting agents have no incentive to
control the delicate state. We further show how our framework unifies and
generalizes existing proposals.
- Abstract(参考訳): ナイーブインセンティブが安全でない安全エージェントを訓練するための一般的な枠組みを提案する。
例えば、操り手や欺き手は報酬を改善するが避けるべきである。
エージェントは必要に応じて期待したリターンを最大化する。
我々は、エンドへの手段として使用すべきでない状態の'デリケート'な部分で設定を正式に記述する。
次に、因果影響図解析を用いて、状態の繊細な部分によって媒介されない期待リターンに対する行動の因果効果を最大化するようエージェントを訓練する。
結果として生じるエージェントは、繊細な状態を制御するインセンティブを持たない。
さらに、フレームワークが既存の提案を統一し、一般化する方法を示します。
関連論文リスト
- Identifying and Addressing Delusions for Target-Directed Decision-Making [81.22463009144987]
ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。
制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。
提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Cursed yet Satisfied Agents [15.104201344012344]
勝者の高い入札は、勝者が売り物の価値を過大評価し、結果として負の効用が生じることを意味する。
呪われても真の信号を入札するようにエージェントにインセンティブを与えるメカニズムを提案します。
論文 参考訳(メタデータ) (2021-04-02T01:15:53Z) - Pessimism About Unknown Unknowns Inspires Conservatism [24.085795452335145]
我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。
悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
論文 参考訳(メタデータ) (2020-06-15T20:46:33Z) - Bounded Incentives in Manipulating the Probabilistic Serial Rule [8.309903898123526]
確率的シリアルはインセンティブ互換ではない。
戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなる。
このメカニズムのインセンティブ比が$frac32$であることを示す。
論文 参考訳(メタデータ) (2020-01-28T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。