論文の概要: Why AI Safety Requires Uncertainty, Incomplete Preferences, and Non-Archimedean Utilities
- arxiv url: http://arxiv.org/abs/2512.23508v1
- Date: Mon, 29 Dec 2025 14:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.544109
- Title: Why AI Safety Requires Uncertainty, Incomplete Preferences, and Non-Archimedean Utilities
- Title(参考訳): AIの安全性が不確実性、不完全な選好、非アルキメデスのユーティリティを必要とする理由
- Authors: Alessio Benavoli, Alessandro Facchini, Marco Zaffalon,
- Abstract要約: 我々は、AIシステムが人間の価値観と一致し、安全であることを保証する方法を研究している。
AI支援問題は、人間が実用機能を最大限に活用するのに役立つAIエージェントを設計することに関わる。
シャットダウン問題は、シャットダウンボタンを押した時にシャットダウンするAIエージェントの設計に関わる。
- 参考スコア(独自算出の注目度): 42.55442413239192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we ensure that AI systems are aligned with human values and remain safe? We can study this problem through the frameworks of the AI assistance and the AI shutdown games. The AI assistance problem concerns designing an AI agent that helps a human to maximise their utility function(s). However, only the human knows these function(s); the AI assistant must learn them. The shutdown problem instead concerns designing AI agents that: shut down when a shutdown button is pressed; neither try to prevent nor cause the pressing of the shutdown button; and otherwise accomplish their task competently. In this paper, we show that addressing these challenges requires AI agents that can reason under uncertainty and handle both incomplete and non-Archimedean preferences.
- Abstract(参考訳): AIシステムが人間の価値観と整合し、安全であることを保証するにはどうすればいいのか?
我々は、AIアシストとAIシャットダウンゲームのフレームワークを通じてこの問題を研究することができる。
AI支援問題は、人間が実用機能を最大限に活用するのに役立つAIエージェントを設計することに関するものである。
しかし、人間だけがこれらの機能を知っていて、AIアシスタントはそれを学ばなければならない。
シャットダウン問題は、シャットダウンボタンを押した時にシャットダウンするAIエージェントの設計に関するもので、シャットダウンボタンの押下を防ぐことも、シャットダウンボタンを押下する原因にもならない。
本稿では,これらの課題に対処するためには,不確実性の下で推論し,不完全かつ非アルキメデス的嗜好に対処できるAIエージェントが必要であることを示す。
関連論文リスト
- Actionable AI: Enabling Non Experts to Understand and Configure AI Systems [5.534140394498714]
Actionable AIでは、非専門家がブラックボックスエージェントを設定することができる。
不確実な条件下では、非専門家は高いレベルの性能を達成する。
我々は、AIベースのエージェントへのアクセスをオープンにする手段として、Actionable AIを提案する。
論文 参考訳(メタデータ) (2025-03-09T23:09:04Z) - The Partially Observable Off-Switch Game [7.567880819525154]
さまざまな目標を達成すれば、AIがオフスイッチを無効にできる可能性がある。
非対称情報を用いた閉鎖問題のゲーム理論モデルであるPartially Observable Off-Switch Game (PO-OSG) を導入する。
最適なプレイでは、完全に合理的な人間を支援するAIエージェントでさえ、シャットダウンを避けることがある。
論文 参考訳(メタデータ) (2024-11-25T14:09:48Z) - Taking AI Welfare Seriously [0.5617572524191751]
我々は、近い将来、一部のAIシステムが意識的または堅牢に作用する可能性があると論じている。
これは近い将来の問題であり、AI企業や他のアクターはそれを真剣に取り始める責任がある。
論文 参考訳(メタデータ) (2024-11-04T17:57:57Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The Threat of Offensive AI to Organizations [52.011307264694665]
この調査は、組織に対する攻撃的なAIの脅威を調査する。
まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかについて議論する。
そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。
論文 参考訳(メタデータ) (2021-06-30T01:03:28Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z) - Towards AI Forensics: Did the Artificial Intelligence System Do It? [2.5991265608180396]
私たちは、デザインとグレーボックス分析によって潜在的に悪意のあるAIに焦点を当てています。
畳み込みニューラルネットワークによる評価は、悪意のあるAIを特定する上での課題とアイデアを示している。
論文 参考訳(メタデータ) (2020-05-27T20:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。