論文の概要: The Intelligent Disobedience Game: Formulating Disobedience in Stackelberg Games and Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2603.20994v1
- Date: Sun, 22 Mar 2026 00:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.188349
- Title: The Intelligent Disobedience Game: Formulating Disobedience in Stackelberg Games and Markov Decision Processes
- Title(参考訳): Intelligent Disobedience Game: Stackelberg Games および Markov Decision Processs における不服従の定式化
- Authors: Benedikt Hornig, Reuth Mirsky,
- Abstract要約: 共有自律においては、自動アシスタントが人間の指示に従うか、危害を防ぐために意図的にオーバーライドするかを選択しなければならないとき、緊張が発生する。
本稿では,Stackelberg ゲームに基づく逐次ゲーム理論フレームワークである Intelligent Disobedience Game (IDG) を紹介する。
- 参考スコア(独自算出の注目度): 6.084651238441389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In shared autonomy, a critical tension arises when an automated assistant must choose between obeying a human's instruction and deliberately overriding it to prevent harm. This safety-critical behavior is known as intelligent disobedience. To formalize this dynamic, this paper introduces the Intelligent Disobedience Game (IDG), a sequential game-theoretic framework based on Stackelberg games that models the interaction between a human leader and an assistive follower operating under asymmetric information. It characterizes optimal strategies for both agents across multi-step scenarios, identifying strategic phenomena such as ``safety traps,'' where the system indefinitely avoids harm but fails to achieve the human's goal. The IDG provides a needed mathematical foundation that enables both the algorithmic development of agents that can learn safe non-compliance and the empirical study of how humans perceive and trust disobedient AI. The paper further translates the IDG into a shared control Multi-Agent Markov Decision Process representation, forming a compact computational testbed for training reinforcement learning agents.
- Abstract(参考訳): 共有自律においては、自動アシスタントが人間の指示に従うか、危害を防ぐために意図的にオーバーライドするかを選択しなければならない場合、致命的な緊張が発生する。
この安全クリティカルな行動は知的不服従として知られる。
このダイナミクスを形式化するために,本研究では,人的リーダと非対称情報の下で動作している援助追従者とのインタラクションをモデル化した,Stackelbergゲームに基づく逐次的なゲーム理論フレームワークであるIntelligent Disobedience Game (IDG)を紹介する。
マルチステップシナリオにまたがる双方のエージェントにとって最適な戦略を特徴付け、システムが無期限に害を免れるが人間の目標達成に失敗する「安全トラップ」のような戦略的な現象を特定する。
IDGは、安全な非コンプライアンスを学べるエージェントのアルゴリズム開発と、人間が不服従AIをどう認識し、信頼するかを実証的な研究を可能にするために必要な数学的基盤を提供する。
さらに,IDGを多エージェントマルコフ決定プロセス表現に変換し,強化学習エージェントを訓練するためのコンパクトな計算テストベッドを形成する。
関連論文リスト
- The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy [9.553819152637493]
エージェントが自律的に行動するか(プレイ)それとも延期するかを選択できる最小限の制御インタフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
本分析では,アライメント保証を提供するゲームクラスであるMarkov Potential Game (MPG) として,このゲームが適するケースに着目した。
論文 参考訳(メタデータ) (2025-10-30T17:46:49Z) - The Ultimate Test of Superintelligent AI Agents: Can an AI Balance Care and Control in Asymmetric Relationships? [11.983461426678522]
シェパードテストは、超知能人工エージェントの道徳的および関係的な次元を評価するための新しい概念テストである。
私たちは、AIが知的エージェントを操作、育む、そして機器的に使用しない能力を示すときに、重要な、潜在的に危険な、知能のしきい値を越えることを主張する。
これには、自己利益と従属エージェントの幸福の間の道徳的なトレードオフを評価する能力が含まれる。
論文 参考訳(メタデータ) (2025-06-02T15:53:56Z) - Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。
本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。
この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文 参考訳(メタデータ) (2025-06-01T07:52:16Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。