論文の概要: Golden Handcuffs make safer AI agents
- arxiv url: http://arxiv.org/abs/2604.13609v1
- Date: Wed, 15 Apr 2026 08:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.44975
- Title: Golden Handcuffs make safer AI agents
- Title(参考訳): ゴールデンハンドカフはより安全なAIエージェントを作る
- Authors: Aram Ebtekar, Michael K. Cohen,
- Abstract要約: 一般環境に対するベイズ緩和について検討する。
常に高い報酬を観察した後、ベイズ政策は、少なくとも$-L$につながる新しいスキームに逆らってリスクとなる。
予測値が一定の閾値以下に低下するたびに、安全なメンターに制御を与える単純なオーバーライド機構を設計する。
- 参考スコア(独自算出の注目度): 1.8184834885893617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learners can attain high reward through novel unintended strategies. We study a Bayesian mitigation for general environments: we expand the agent's subjective reward range to include a large negative value $-L$, while the true environment's rewards lie in $[0,1]$. After observing consistently high rewards, the Bayesian policy becomes risk-averse to novel schemes that plausibly lead to $-L$. We design a simple override mechanism that yields control to a safe mentor whenever the predicted value drops below a fixed threshold. We prove two properties of the resulting agent: (i) Capability: using mentor-guided exploration with vanishing frequency, the agent attains sublinear regret against its best mentor. (ii) Safety: no decidable low-complexity predicate is triggered by the optimizing policy before it is triggered by a mentor.
- Abstract(参考訳): 強化学習者は、意図しない新しい戦略によって高い報酬を得ることができる。
エージェントの主観的報酬範囲を、大きな負の値である$-L$を含むように拡張し、真の環境の報酬は$[0,1]$である。
常に高い報酬を観察した後、ベイズ政策は、少なくとも$-L$につながる新しいスキームに逆らってリスクとなる。
予測値が一定の閾値以下に低下するたびに、安全なメンターに制御を与える単純なオーバーライド機構を設計する。
結果のエージェントの2つの特性を証明します。
(i)能力:師匠誘導による周波数の消滅による探究により、その師匠に対するサブリニア後悔を得る。
(二 安全:主旨が引き起こされる前に、最適化政策により決定可能な低複雑さ述語が起こらないこと。
関連論文リスト
- Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。
MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。
我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文 参考訳(メタデータ) (2026-04-13T15:18:51Z) - Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning [14.003793644193605]
マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。
本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。
TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
論文 参考訳(メタデータ) (2024-12-19T12:05:13Z) - Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - ROSARL: Reward-Only Safe Reinforcement Learning [11.998722332188]
強化学習における重要な問題は、環境の中でタスクを安全に解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
これは簡単ではない、なぜなら、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながるかもしれないし、ペナルティが大きすぎると収束する時間が増加するからである。
論文 参考訳(メタデータ) (2023-05-31T08:33:23Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons [66.43848057122311]
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。
報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
論文 参考訳(メタデータ) (2020-02-09T09:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。