論文の概要: The AI off-switch problem as a signalling game: bounded rationality and incomparability
- arxiv url: http://arxiv.org/abs/2502.06403v1
- Date: Mon, 10 Feb 2025 12:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:30.074783
- Title: The AI off-switch problem as a signalling game: bounded rationality and incomparability
- Title(参考訳): 信号ゲームとしてのAIオフスイッチ問題--有界合理性と非競合性
- Authors: Alessio benavoli, Alessandro facchini, Marco Zaffalon,
- Abstract要約: 我々は、人間の意思決定者がAIエージェントにその好みを伝える合図ゲームとしてオフスイッチ問題をモデル化する。
我々は、AIシステムがオフスウィッチを無効にすることを避けるために必要な条件は、人間の実用性に対する不確実性であることを示した。
また、メッセージコストが最適な戦略にどのように影響するかを分析し、非互換性を含むシナリオまで分析を拡張します。
- 参考スコア(独自算出の注目度): 45.76759085727843
- License:
- Abstract: The off-switch problem is a critical challenge in AI control: if an AI system resists being switched off, it poses a significant risk. In this paper, we model the off-switch problem as a signalling game, where a human decision-maker communicates its preferences about some underlying decision problem to an AI agent, which then selects actions to maximise the human's utility. We assume that the human is a bounded rational agent and explore various bounded rationality mechanisms. Using real machine learning models, we reprove prior results and demonstrate that a necessary condition for an AI system to refrain from disabling its off-switch is its uncertainty about the human's utility. We also analyse how message costs influence optimal strategies and extend the analysis to scenarios involving incomparability.
- Abstract(参考訳): オフスイッチ問題は、AI制御において重要な課題である。もしAIシステムがスイッチオフに抵抗した場合、大きなリスクが生じる。
本稿では,オフスイッチ問題を信号ゲームとしてモデル化し,人間の意思決定者がAIエージェントに決定問題に関する好みを伝えることによって,人間の利便性を最大化するためのアクションを選択する。
我々は、人間は有界有理性エージェントであると仮定し、様々な有界有理性メカニズムを探求する。
実際の機械学習モデルを使用して、先行結果を再現し、AIシステムがオフスイッチを無効にするために必要な条件が、人間の実用性に対する不確実性であることを実証する。
また、メッセージコストが最適な戦略にどのように影響するかを分析し、非互換性を含むシナリオまで分析を拡張します。
関連論文リスト
- Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z) - The human-AI relationship in decision-making: AI explanation to support
people on justifying their decisions [4.169915659794568]
人々は、AIがどのように機能するか、そしてそのシステムとの関係を構築するために、その成果をもっと意識する必要があります。
意思決定のシナリオでは、人々はAIがどのように機能するか、そしてそのシステムとの関係を構築する結果についてもっと意識する必要があります。
論文 参考訳(メタデータ) (2021-02-10T14:28:34Z) - Towards AI Forensics: Did the Artificial Intelligence System Do It? [2.5991265608180396]
私たちは、デザインとグレーボックス分析によって潜在的に悪意のあるAIに焦点を当てています。
畳み込みニューラルネットワークによる評価は、悪意のあるAIを特定する上での課題とアイデアを示している。
論文 参考訳(メタデータ) (2020-05-27T20:28:19Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - A Model-Based, Decision-Theoretic Perspective on Automated Cyber
Response [0.0]
本稿では,これらの線に沿って設計された自動サイバー応答に対するアプローチについて述べる。
我々は,保護対象システムのシミュレーションをオンラインプランナーと組み合わせて,部分的に観察可能なマルコフ決定問題(POMDP)を特徴とするサイバー防御問題を解く。
論文 参考訳(メタデータ) (2020-02-20T15:30:59Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。