論文の概要: The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy
- arxiv url: http://arxiv.org/abs/2510.26752v1
- Date: Thu, 30 Oct 2025 17:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.948746
- Title: The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy
- Title(参考訳): 監督ゲーム:AIエージェントの安全と自律性を協調的にバランスさせる学習
- Authors: William Overman, Mohsen Bayati,
- Abstract要約: エージェントが自律的に行動するか(プレイ)それとも延期するかを選択できる最小限の制御インタフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
本分析では,アライメント保証を提供するゲームクラスであるMarkov Potential Game (MPG) として,このゲームが適するケースに着目した。
- 参考スコア(独自算出の注目度): 9.553819152637493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As increasingly capable agents are deployed, a central safety question is how to retain meaningful human control without modifying the underlying system. We study a minimal control interface where an agent chooses whether to act autonomously (play) or defer (ask), while a human simultaneously chooses whether to be permissive (trust) or to engage in oversight (oversee). If the agent defers, the human's choice determines the outcome, potentially leading to a corrective action or a system shutdown. We model this interaction as a two-player Markov Game. Our analysis focuses on cases where this game qualifies as a Markov Potential Game (MPG), a class of games where we can provide an alignment guarantee: under a structural assumption on the human's value function, any decision by the agent to act more autonomously that benefits itself cannot harm the human's value. We also analyze extensions to this MPG framework. Theoretically, this perspective provides conditions for a specific form of intrinsic alignment. If the reward structures of the human-agent game meet these conditions, we have a formal guarantee that the agent improving its own outcome will not harm the human's. Practically, this model motivates a transparent control layer with predictable incentives where the agent learns to defer when risky and act when safe, while its pretrained policy and the environment's reward structure remain untouched. Our gridworld simulation shows that through independent learning, the agent and human discover their optimal oversight roles. The agent learns to ask when uncertain and the human learns when to oversee, leading to an emergent collaboration that avoids safety violations introduced post-training. This demonstrates a practical method for making misaligned models safer after deployment.
- Abstract(参考訳): ますます有能なエージェントが配備されるにつれて、中央の安全問題は、システムを変更することなく、有意義な人間のコントロールを維持する方法である。
エージェントが自律的に行動(プレイ)するか、延期(アスク)するかを選択するのに対して、人間は許容的(信頼)か監視(監視)するかを同時に選択する、最小限の制御インターフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
我々はこの相互作用を2人プレイのマルコフゲームとしてモデル化する。
我々の分析では、このゲームがマルコフポテンシャルゲーム(MPG)として適合するケースに焦点を当てており、人間の価値関数に関する構造的な仮定の下で、エージェントがより自律的に行動し、利益自体が人間の価値に害を与えないような決定を下すことができる。
また、このMPGフレームワークの拡張も分析する。
理論的には、この観点は内在的アライメントの特定の形態の条件を与える。
もし人間エージェントゲームの報酬構造がこれらの条件を満たすならば、エージェントが自身の結果を改善することは人間に害を与えない、という正式な保証が得られます。
実際に、このモデルは透明な制御層を動機付けており、エージェントはリスクのある時に遅延を学習し、安全であれば行動するが、事前訓練されたポリシーと環境の報酬構造は触れられていない。
我々のグリッドワールドシミュレーションは、独立した学習を通じてエージェントと人間が最適な監視の役割を発見することを示している。
エージェントは、いつ不確実かを尋ねることを学び、人間がいつ監視するかを学ぶと、訓練後の安全違反を避ける緊急の協力につながる。
これは、デプロイ後に不整合モデルをより安全にするための実践的な方法を示している。
関連論文リスト
- Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - The Limits of Predicting Agents from Behaviour [16.80911584745046]
我々は,エージェントの行動が世界モデルによって導かれるという仮定の下で,正確な回答を提供する。
我々の貢献は、新しい(目に見えない)デプロイメント環境におけるエージェントの振る舞いに関する新しい境界の導出である。
公平性や安全性など,いくつかの研究領域において,これらの結果がもたらす意味について論じる。
論文 参考訳(メタデータ) (2025-06-03T14:24:58Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - On Corrigibility and Alignment in Multi Agent Games [0.0]
自律エージェントの信頼性はシステム設計の未調査部分である。
人間の嗜好に対する不確実性は、人間の不合理性に直面した場合でも、エージェントを矯正するために働くことが示唆されている。
本稿では,エージェントが常に人間に監督を依頼できる2人プレイヤゲームとして,マルチエージェント設定でコーリライザをモデル化するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:44:38Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。