論文の概要: The Partially Observable Off-Switch Game
- arxiv url: http://arxiv.org/abs/2411.17749v2
- Date: Mon, 09 Dec 2024 07:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:47:48.053779
- Title: The Partially Observable Off-Switch Game
- Title(参考訳): 一部観測可能なオフスイッチゲーム
- Authors: Andrew Garber, Rohan Subramani, Linus Luu, Mark Bedaywi, Stuart Russell, Scott Emmons,
- Abstract要約: さまざまな目標を達成すれば、AIがオフスイッチを無効にできる可能性がある。
非対称情報を用いた閉鎖問題のゲーム理論モデルであるPartially Observable Off-Switch Game (PO-OSG) を導入する。
最適なプレイでは、完全に合理的な人間を支援するAIエージェントでさえ、シャットダウンを避けることがある。
- 参考スコア(独自算出の注目度): 7.567880819525154
- License:
- Abstract: A wide variety of goals could cause an AI to disable its off switch because "you can't fetch the coffee if you're dead" (Russell 2019). Prior theoretical work on this shutdown problem assumes that humans know everything that AIs do. In practice, however, humans have only limited information. Moreover, in many of the settings where the shutdown problem is most concerning, AIs might have vast amounts of private information. To capture these differences in knowledge, we introduce the Partially Observable Off-Switch Game (PO-OSG), a game-theoretic model of the shutdown problem with asymmetric information. Unlike when the human has full observability, we find that in optimal play, even AI agents assisting perfectly rational humans sometimes avoid shutdown. As expected, increasing the amount of communication or information available always increases (or leaves unchanged) the agents' expected common payoff. But counterintuitively, introducing bounded communication can make the AI defer to the human less in optimal play even though communication mitigates information asymmetry. In particular, communication sometimes enables new optimal behavior requiring strategic AI deference to achieve outcomes that were previously inaccessible. Thus, designing safe artificial agents in the presence of asymmetric information requires careful consideration of the tradeoffs between maximizing payoffs (potentially myopically) and maintaining AIs' incentives to defer to humans.
- Abstract(参考訳): さまざまな目標を達成すれば、AIがオフスイッチを無効にできる可能性がある。
この停止問題に関する以前の理論的研究は、人間がAIがやっていることを全て知っていると仮定している。
しかし実際には、人間は限られた情報しか持っていない。
さらに、シャットダウン問題が最も関係している多くの設定では、AIは膨大な量のプライベート情報を持っている可能性がある。
このような知識の違いを捉えるため,非対称情報を用いた閉鎖問題のゲーム理論モデルであるPartially Observable Off-Switch Game (PO-OSG)を導入する。
人間が完全に観察可能であるのとは違って、最適なプレイでは、完全に合理的な人間を助けるAIエージェントでさえ、シャットダウンを避けることがある。
予想通り、利用可能な通信量や情報の量が増えると、エージェントの期待する共通の支払いが増加(あるいは変化しない)する。
しかし、逆に、有界なコミュニケーションを導入することで、コミュニケーションが情報の非対称性を緩和したとしても、AIが人間に最適なプレーを遅らせることができる。
特に、コミュニケーションは、これまでアクセスできなかった結果を達成するために戦略的AI推論を必要とする新しい最適な行動を可能にすることがある。
したがって、非対称情報の存在下で安全な人工エージェントを設計するには、(潜在的にミオプティカルな)支払いを最大化することと、人間を遅延させるAIのインセンティブを維持することの間のトレードオフを慎重に考慮する必要がある。
関連論文リスト
- On the consistent reasoning paradox of intelligence and optimal trust in AI: The power of 'I don't know' [79.69412622010249]
一貫性推論(Consistent reasoning)は、人間の知性の中心にある、同等のタスクを扱う能力である。
CRPは、一貫性のある推論は誤認を意味する、と論じている。
論文 参考訳(メタデータ) (2024-08-05T10:06:53Z) - Alterfactual Explanations -- The Relevance of Irrelevance for Explaining
AI Systems [0.9542023122304099]
我々は、決定を完全に理解するためには、関連する特徴に関する知識だけでなく、無関係な情報の認識もAIシステムのユーザーのメンタルモデルの作成に大きく貢献すると主張している。
私たちのアプローチは、Alterfactual Explanations(Alterfactual Explanations)と呼ばれ、AIの入力の無関係な特徴が変更された別の現実を示すことに基づいています。
我々は,AIの推論のさまざまな側面を,反事実的説明法よりも理解するために,人工的説明が適していることを示す。
論文 参考訳(メタデータ) (2022-07-19T16:20:37Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - On the Effect of Information Asymmetry in Human-AI Teams [0.0]
我々は、人間とAIの相補的ポテンシャルの存在に焦点を当てる。
具体的には、情報非対称性を相補性ポテンシャルの必須源とみなす。
オンライン実験を行うことで、人間がそのような文脈情報を使ってAIの決定を調整できることを実証する。
論文 参考訳(メタデータ) (2022-05-03T13:02:50Z) - On the Influence of Explainable AI on Automation Bias [0.0]
我々は、説明可能なAI(XAI)によって自動化バイアスに影響を与える可能性に光を当てることを目指している。
ホテルのレビュー分類に関するオンライン実験を行い、最初の結果について議論する。
論文 参考訳(メタデータ) (2022-04-19T12:54:23Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The Threat of Offensive AI to Organizations [52.011307264694665]
この調査は、組織に対する攻撃的なAIの脅威を調査する。
まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかについて議論する。
そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。
論文 参考訳(メタデータ) (2021-06-30T01:03:28Z) - Does Explainable Artificial Intelligence Improve Human Decision-Making? [17.18994675838646]
我々は、AI(制御)を使わずに客観的な人間の意思決定精度を、AI予測(説明なし)とAI予測(説明なし)とを比較して評価する。
あらゆる種類のAI予測は、ユーザの判断精度を改善する傾向がありますが、説明可能なAIが有意義な影響を与えるという決定的な証拠はありません。
我々の結果は、少なくともいくつかの状況において、説明可能なAIが提供する「なぜ」情報は、ユーザの意思決定を促進することができないことを示唆している。
論文 参考訳(メタデータ) (2020-06-19T15:46:13Z) - Aligning Superhuman AI with Human Behavior: Chess as a Model System [5.236087378443016]
我々は、人間のチェスゲームで訓練されたAlpha-Zeroのカスタマイズ版であるMaiaを開発し、既存のエンジンよりもはるかに高い精度で人間の動きを予測する。
人間が次の動きで大きな間違いを犯すかどうかを予測する2つのタスクに対して、我々は、競争ベースラインを大幅に上回るディープニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2020-06-02T18:12:52Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。