論文の概要: Observation Interference in Partially Observable Assistance Games
- arxiv url: http://arxiv.org/abs/2412.17797v1
- Date: Mon, 23 Dec 2024 18:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:31.498747
- Title: Observation Interference in Partially Observable Assistance Games
- Title(参考訳): 部分観察型アシストゲームにおける観察干渉
- Authors: Scott Emmons, Caspar Oesterheld, Vincent Conitzer, Stuart Russell,
- Abstract要約: 我々は,人間とAIアシスタントが部分的な観察を行うことを可能にする,人間-AI値アライメント問題のモデルについて検討する。
最適なアシスタントは、人間が最適に演奏している場合でも、観察干渉行動をとる必要がある。
不合理性のボルツマンモデルに従えば、これはアシスタントが観察に干渉するインセンティブを生じさせることが示される。
- 参考スコア(独自算出の注目度): 34.53170543153206
- License:
- Abstract: We study partially observable assistance games (POAGs), a model of the human-AI value alignment problem which allows the human and the AI assistant to have partial observations. Motivated by concerns of AI deception, we study a qualitatively new phenomenon made possible by partial observability: would an AI assistant ever have an incentive to interfere with the human's observations? First, we prove that sometimes an optimal assistant must take observation-interfering actions, even when the human is playing optimally, and even when there are otherwise-equivalent actions available that do not interfere with observations. Though this result seems to contradict the classic theorem from single-agent decision making that the value of perfect information is nonnegative, we resolve this seeming contradiction by developing a notion of interference defined on entire policies. This can be viewed as an extension of the classic result that the value of perfect information is nonnegative into the cooperative multiagent setting. Second, we prove that if the human is simply making decisions based on their immediate outcomes, the assistant might need to interfere with observations as a way to query the human's preferences. We show that this incentive for interference goes away if the human is playing optimally, or if we introduce a communication channel for the human to communicate their preferences to the assistant. Third, we show that if the human acts according to the Boltzmann model of irrationality, this can create an incentive for the assistant to interfere with observations. Finally, we use an experimental model to analyze tradeoffs faced by the AI assistant in practice when considering whether or not to take observation-interfering actions.
- Abstract(参考訳): 我々は,人間とAIアシスタントが部分的な観察を行うことを可能にする,人間とAIの値アライメント問題のモデルである,部分観測支援ゲーム(POAGs)について検討する。
AIアシスタントは、人間の観察に干渉するインセンティブを持つだろうか?
まず、最適なアシスタントは、人間が最適にプレーしているときでも、観察に干渉しないような他の等価なアクションがあるときでも、観察干渉アクションを取らなければならないことを証明する。
この結果は、完全情報の値が非負であるという単項決定の古典的な定理と矛盾しているように見えるが、全てのポリシーに定義された干渉の概念を発達させることで、この矛盾を解消する。
これは、完全情報の値が協調的マルチエージェント設定に非負であるという古典的な結果の拡張と見なすことができる。
第二に、人間が即時の結果に基づいて決定を下す場合、人間の好みを問う方法として観察に干渉する必要があることを証明する。
この干渉に対するインセンティブは、人間が最適に演奏している場合、あるいは、人間がアシスタントに好みを伝えるためのコミュニケーションチャネルを導入する場合、失われることが示される。
第三に、人間が不合理性のボルツマンモデルに従って行動した場合、これは観察に干渉する動機となる。
最後に、観察干渉行動をとるか否かを検討する際に、AIアシスタントが実際に直面しているトレードオフを分析する実験モデルを用いる。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback [16.540715313676994]
人間のフィードバックが部分的な観察にのみ基づく場合、それは誤認的なインフレーションと過度な調整をもたらす可能性があることを示す。
人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。
論文 参考訳(メタデータ) (2024-02-27T18:32:11Z) - The Duet of Representations and How Explanations Exacerbate It [0.0]
アルゴリズムは、人間の知覚における特徴とラベルの関係の因果表現に影響を及ぼす。
説明は、人間の注意を対立する特徴に向け、他の関連する特徴から遠ざけることができる。
これは因果的過剰寄与を引き起こし、人間の情報処理に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-02-13T11:18:27Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Individual vs. Joint Perception: a Pragmatic Model of Pointing as
Communicative Smithian Helping [16.671443846399836]
単純なポインティングのジェスチャーは、観察に基づいて世界の状態を理解できる能力を大幅に増強することができる。
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて、個々の観察に基づいて世界に対する信念を更新するエージェントをモデル化する。
それに加えて、我々は、指摘された観察が関連し、解釈可能であるべきであるという相互理解を持つエージェント間のコミュニケーション行為であることを示すモデルを構築している。
論文 参考訳(メタデータ) (2021-06-03T17:21:23Z) - Understanding the Effect of Out-of-distribution Examples and Interactive
Explanations on Human-AI Decision Making [19.157591744997355]
典型的な実験的なセットアップは、人間-AIチームの可能性を制限します。
インタラクティブな説明を支援する新しいインターフェースを開発し、人間がAI支援に積極的に取り組みます。
論文 参考訳(メタデータ) (2021-01-13T19:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。