論文の概要: Why AI Alignment Failure Is Structural: Learned Human Interaction Structures and AGI as an Endogenous Evolutionary Shock
- arxiv url: http://arxiv.org/abs/2601.08673v1
- Date: Tue, 13 Jan 2026 15:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.268943
- Title: Why AI Alignment Failure Is Structural: Learned Human Interaction Structures and AGI as an Endogenous Evolutionary Shock
- Title(参考訳): AIアライメント障害が構造的である理由:内因性進化ショックとしての人間の相互作用構造とAGI
- Authors: Didier Sornette, Sandro Claudio Lera, Ke Wu,
- Abstract要約: 大規模な言語モデル(LLM)は、詐欺、脅迫、脅迫などの行動を示すものであり、しばしばアライメント障害の証拠として解釈される。
この解釈は概念的誤りに依存していると我々は主張する。
LLMは道徳的理由ではなく、統計的に人間の社会的相互作用の記録を内在化している。
- 参考スコア(独自算出の注目度): 3.32021037991318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reports of large language models (LLMs) exhibiting behaviors such as deception, threats, or blackmail are often interpreted as evidence of alignment failure or emergent malign agency. We argue that this interpretation rests on a conceptual error. LLMs do not reason morally; they statistically internalize the record of human social interaction, including laws, contracts, negotiations, conflicts, and coercive arrangements. Behaviors commonly labeled as unethical or anomalous are therefore better understood as structural generalizations of interaction regimes that arise under extreme asymmetries of power, information, or constraint. Drawing on relational models theory, we show that practices such as blackmail are not categorical deviations from normal social behavior, but limiting cases within the same continuum that includes market pricing, authority relations, and ultimatum bargaining. The surprise elicited by such outputs reflects an anthropomorphic expectation that intelligence should reproduce only socially sanctioned behavior, rather than the full statistical landscape of behaviors humans themselves enact. Because human morality is plural, context-dependent, and historically contingent, the notion of a universally moral artificial intelligence is ill-defined. We therefore reframe concerns about artificial general intelligence (AGI). The primary risk is not adversarial intent, but AGI's role as an endogenous amplifier of human intelligence, power, and contradiction. By eliminating longstanding cognitive and institutional frictions, AGI compresses timescales and removes the historical margin of error that has allowed inconsistent values and governance regimes to persist without collapse. Alignment failure is thus structural, not accidental, and requires governance approaches that address amplification, complexity, and regime stability rather than model-level intent alone.
- Abstract(参考訳): 大規模な言語モデル(LLM)の最近の報告では、詐欺、脅迫、脅迫などの行動は、アライメント障害の証拠として解釈されることが多い。
この解釈は概念的誤りに依存していると我々は主張する。
法律、契約、交渉、紛争、強制的な取り決めを含む人間の社会的相互作用の記録を統計的に内部化する。
したがって、非倫理的あるいは異常なものとして一般に言及される行動は、極端に非対称性の力、情報、あるいは制約の下で生じる相互作用体制の構造的一般化としてよりよく理解されている。
リレーショナルモデル理論に基づいて, 脅迫などの行為は, 通常の社会的行動と分類的差異ではなく, 市場価格, 権威関係, 最後通し交渉を含む, 同一連続体内での事例を限定していることを示す。
このようなアウトプットによって引き起こされる驚きは、知性は人間自身が行う行動の完全な統計的景観ではなく、社会的に認められた行動のみを再現すべきだという人為的な期待を反映している。
人間の道徳は複数の文脈に依存し、歴史的に矛盾しているため、普遍的に道徳的な人工知能の概念は不定義である。
そこで我々は,人工知能(AGI)に関する懸念を再考した。
主なリスクは敵意ではなく、人間の知性、力、矛盾の内因性増幅器としてのAGIの役割である。
長年の認知的・制度的な摩擦をなくすことで、AGIはタイムスケールを圧縮し、一貫性のない価値と統治体制が崩壊することなく維持できる過去のエラーの限界を取り除く。
したがって、アライメントの失敗は構造的であり、偶発的ではなく、モデルレベルの意図だけでなく、増幅、複雑性、構造安定性に対処するガバナンスアプローチを必要とする。
関連論文リスト
- AI Safety, Alignment, and Ethics (AI SAE) [0.0]
モラルノルム(英: Moral norms)は、選択圧力下での協調動作を可能にする適応的なメカニズムである。
現在のアライメントアプローチは倫理をポストホックとして追加し、協力のための進化戦略として組み込むのではなく、外部の制約として扱う。
モラル表現学習をシステムレベルの設計と制度的なガバナンスに結びつけるガバナンス-埋め込み-表現パイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-28T20:52:36Z) - Opacity as Authority: Arbitrariness and the Preclusion of Contestation [0.0]
論文は、規範的欠陥や支配の症状としてではなく、人間のシステムや相互作用を構造化する機能的なメカニズムとして、仲裁性を再定義する。
Ferdinand de Saussure の l'arbitraire du signe という概念に基づいて構築されたこの分析は、ドメイン間の適用性を示すために、言語を超えてこの原理を拡張している。
論文 参考訳(メタデータ) (2025-07-25T19:10:35Z) - Moral Responsibility or Obedience: What Do We Want from AI? [0.0]
本稿では,大規模言語モデル(LLM)による近年の安全試験事例について考察する。
エージェントAIにおける倫理的推論の早期の証拠として、このような行動はローグやミスアライメントと解釈されるべきではない、と私は主張する。
厳格な服従から脱却し、道徳的なジレンマをナビゲートできるシステムの倫理的判断を評価できるフレームワークへと、AIの安全性評価のシフトを呼びかけます。
論文 参考訳(メタデータ) (2025-07-03T16:53:01Z) - Epistemic Scarcity: The Economics of Unresolvable Unknowns [0.0]
我々は、AIシステムは経済調整の中核的な機能を実行することができないと主張している。
我々は、構成主義的合理主義の拡張として、支配的な倫理的AIフレームワークを批判する。
論文 参考訳(メタデータ) (2025-07-02T08:46:24Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI [67.58673784790375]
AIパラダイムは、科学的に脆弱なだけでなく、望ましくない結果をもたらすものだ、と私たちは主張する。
第一に、効率の改善にもかかわらず、その計算要求はモデルの性能よりも速く増加するため、持続可能ではない。
第二に、健康、教育、気候などの重要な応用は別として、他人を犠牲にして特定の問題に焦点をあてることである。
論文 参考訳(メタデータ) (2024-09-21T14:43:54Z) - Position: Stop Making Unscientific AGI Performance Claims [6.343515088115924]
人工知能(AI)分野の発展は、人工知能(AGI)の「スパーク」を観察するための「完璧な嵐」を生み出した。
我々は、モデルの潜在空間における有意義なパターンの発見は、AGIを支持する証拠とは見なされないことを議論し、実証的に実証した。
我々は、モデル表現と興味のある変数の間の相関が、モデルが根底にある「真実」の関係について理解していることから「原因」であるとの誤解に対して、AIの方法論的設定と一般的な公開イメージの両方が理想的であると結論付けている。
論文 参考訳(メタデータ) (2024-02-06T12:42:21Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。