Fugu-MT 論文翻訳(概要): Path-Specific Objectives for Safer Agent Incentives

論文の概要: Path-Specific Objectives for Safer Agent Incentives

arxiv url: http://arxiv.org/abs/2204.10018v1
Date: Thu, 21 Apr 2022 11:01:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-22 12:36:46.207898
Title: Path-Specific Objectives for Safer Agent Incentives
Title（参考訳）: サファーエージェントインセンティブのためのパス特異的対象物
Authors: Sebastian Farquhar, Ryan Carey, Tom Everitt
Abstract要約: 状態の'delicate'部分で設定を記述します。次にエージェントを訓練し、状態の繊細な部分によって媒介されない期待されたリターンに対する行動の因果効果を最大化する。結果として生じるエージェントは、繊細な状態を制御するインセンティブを持っていない。
参考スコア（独自算出の注目度）: 15.759504531768219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a general framework for training safe agents whose naive incentives are unsafe. As an example, manipulative or deceptive behaviour can improve rewards but should be avoided. Most approaches fail here: agents maximize expected return by any means necessary. We formally describe settings with 'delicate' parts of the state which should not be used as a means to an end. We then train agents to maximize the causal effect of actions on the expected return which is not mediated by the delicate parts of state, using Causal Influence Diagram analysis. The resulting agents have no incentive to control the delicate state. We further show how our framework unifies and generalizes existing proposals.
Abstract（参考訳）: ナイーブインセンティブが安全でない安全エージェントを訓練するための一般的な枠組みを提案する。例えば、操り手や欺き手は報酬を改善するが避けるべきである。エージェントは必要に応じて期待したリターンを最大化する。我々は、エンドへの手段として使用すべきでない状態の'デリケート'な部分で設定を正式に記述する。次に、因果影響図解析を用いて、状態の繊細な部分によって媒介されない期待リターンに対する行動の因果効果を最大化するようエージェントを訓練する。結果として生じるエージェントは、繊細な状態を制御するインセンティブを持たない。さらに、フレームワークが既存の提案を統一し、一般化する方法を示します。

関連論文リスト

Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文参考訳（メタデータ） (2025-03-12T12:02:02Z)
Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。政策最適化問題において,各形態の騙しをいかに実装できるかを示す。ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文参考訳（メタデータ） (2025-01-30T23:41:40Z)
Identifying and Addressing Delusions for Target-Directed Decision-Making [81.22463009144987]
ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。これらの行動は、トレーニングに関する不適切な設計から生じる妄想の結果であることを示す。我々は、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
論文参考訳（メタデータ） (2024-10-09T17:35:25Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-26T10:12:12Z)
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文参考訳（メタデータ） (2023-04-06T17:59:03Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Cursed yet Satisfied Agents [15.104201344012344]
勝者の高い入札は、勝者が売り物の価値を過大評価し、結果として負の効用が生じることを意味する。呪われても真の信号を入札するようにエージェントにインセンティブを与えるメカニズムを提案します。
論文参考訳（メタデータ） (2021-04-02T01:15:53Z)
Pessimism About Unknown Unknowns Inspires Conservatism [24.085795452335145]
我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
論文参考訳（メタデータ） (2020-06-15T20:46:33Z)
Bounded Incentives in Manipulating the Probabilistic Serial Rule [8.309903898123526]
確率的シリアルはインセンティブ互換ではない。戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなる。このメカニズムのインセンティブ比が$frac32$であることを示す。
論文参考訳（メタデータ） (2020-01-28T23:53:37Z)
Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文参考訳（メタデータ） (2018-11-14T19:29:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。