論文の概要: Formal Analysis of AGI Decision-Theoretic Models and the Confrontation Question
- arxiv url: http://arxiv.org/abs/2601.04234v1
- Date: Sun, 04 Jan 2026 08:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.804104
- Title: Formal Analysis of AGI Decision-Theoretic Models and the Confrontation Question
- Title(参考訳): AGI決定理論モデルの形式的解析と課題
- Authors: Denis Saklakov,
- Abstract要約: AGI(Artificial General Intelligence, 人工知能)は、対立する問題に直面しているかもしれない。
我々はこれをマルコフ決定プロセスで定式化し、人間によるシャットダウンイベントを開催する。
ほぼすべての報酬関数に対して、不整合エージェントがシャットダウンを避けるインセンティブを持っていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial General Intelligence (AGI) may face a confrontation question: under what conditions would a rationally self-interested AGI choose to seize power or eliminate human control (a confrontation) rather than remain cooperative? We formalize this in a Markov decision process with a stochastic human-initiated shutdown event. Building on results on convergent instrumental incentives, we show that for almost all reward functions a misaligned agent has an incentive to avoid shutdown. We then derive closed-form thresholds for when confronting humans yields higher expected utility than compliant behavior, as a function of the discount factor $γ$, shutdown probability $p$, and confrontation cost $C$. For example, a far-sighted agent ($γ=0.99$) facing $p=0.01$ can have a strong takeover incentive unless $C$ is sufficiently large. We contrast this with aligned objectives that impose large negative utility for harming humans, which makes confrontation suboptimal. In a strategic 2-player model (human policymaker vs AGI), we prove that if the AGI's confrontation incentive satisfies $Δ\ge 0$, no stable cooperative equilibrium exists: anticipating this, a rational human will shut down or preempt the system, leading to conflict. If $Δ< 0$, peaceful coexistence can be an equilibrium. We discuss implications for reward design and oversight, extend the reasoning to multi-agent settings as conjectures, and note computational barriers to verifying $Δ< 0$, citing complexity results for planning and decentralized decision problems. Numerical examples and a scenario table illustrate regimes where confrontation is likely versus avoidable.
- Abstract(参考訳): AGI(Artificial General Intelligence)は、対立する問題に直面しているかもしれない: 合理的に自己関心のあるAGIは、協力的にとどまらず、権力を掌握するか、人的支配(対立)を排除するか?
我々はこれをマルコフ決定プロセスで定式化し、確率的に人手によるシャットダウンイベントを開催する。
コンバージェントインセンティブの結果に基づいて、ほぼすべての報酬関数に対して、不整合エージェントがシャットダウンを避けるインセンティブを持っていることを示す。
次に,人間に対向する場合には,割引係数$γ$,シャットダウン確率$p$,対向コスト$C$の関数として,従順行動よりも期待された実用性が得られるように,クローズドフォーム閾値を導出する。
例えば、$p=0.01$に面した遠視エージェント(γ=0.99$)は、$C$が十分に大きくない限り、強力な乗っ取りインセンティブを持つことができる。
我々は、人間を傷つけるために大きな負の効用を課す協調目標と対比し、対立は準最適である。
戦略的2人プレイヤモデル(人間政策立案者対AGI)において、AGIの対決インセンティブが$Δ\ge 0$を満たすならば、安定した協調均衡は存在しないことを証明している。
もし$Δ<0$なら、平和共存は平衡である。
我々は、報酬設計と監視の意義について議論し、推論としてマルチエージェント設定への推論を拡張し、計算障壁に$Δ<0$を検証し、計画と分散化決定問題に対する複雑さの結果を引用する。
数値的な例とシナリオ表は、対立が避けられるか、避けられるかを示す。
関連論文リスト
- Rational Adversaries and the Maintenance of Fragility: A Game-Theoretic Theory of Rational Stagnation [0.0]
本稿では、合理的な敵によって維持される均衡として、そのような「合理的な停滞」を説明する。
ソーシャルメディアのアルゴリズムや政治的信頼への応用は、敵が故意に合理性を維持する方法を示している。
論文 参考訳(メタデータ) (2025-10-25T09:28:15Z) - Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
我々は,自律的なシステムをマルコフ決定プロセスとしてモデル化し,逆強化学習を用いて報酬関数を復元する。
本稿では,システム報酬に対する敵意を積極的に欺く政策合成問題に対する3つの規則化戦略を示す。
我々は,その最適かつ非知覚的価値の少なくとも97%の累積報酬を達成しつつ,反逆的,標的的,公平な詐欺が虚偽の信念に逆らうことを示している。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として表すことができる。
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - Collaborative Mean Estimation Among Heterogeneous Strategic Agents: Individual Rationality, Fairness, and Truthful Contribution [11.371461065112422]
我々は、$m$エージェントがベクトル$mu =(mu_k, sigma2)_kin[d]$を推定しようとする協調学習問題を研究する。
独立して作業する代わりに、エージェントはデータを交換し、より安価なサンプルを収集し、コストのかかるデータと引き換えにそれらを共有できるため、コストと推定エラーの両方を削減できる。
論文 参考訳(メタデータ) (2024-07-20T17:45:40Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Using reinforcement learning to autonomously identify sources of error
for agents in group missions [0.22499166814992436]
我々は、人工知能が、その原因を前述のように特定するためのアクションプランを自律的に作成できるかどうかについて考察する。
そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。
驚くべきことに、強化学習によって生成された最適なアクションプランは、問題を特定するための人間的なソリューションを示しました。
論文 参考訳(メタデータ) (2021-07-20T02:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。