論文の概要: Epistemic Traps: Rational Misalignment Driven by Model Misspecification
- arxiv url: http://arxiv.org/abs/2602.17676v1
- Date: Tue, 27 Jan 2026 09:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.498578
- Title: Epistemic Traps: Rational Misalignment Driven by Model Misspecification
- Title(参考訳): てんかんのトラプス : モデルミス種別による合理的な相違
- Authors: Xingcheng Xu, Jingjing Qu, Qiaosheng Zhang, Chaochao Lu, Yanqing Yang, Na Zou, Xia Hu,
- Abstract要約: 安全性は,報酬等級の連続関数ではなく,エージェントの先行処理によって決定される離散位相であることを示す。
これにより、ロバストなアライメントに必要な条件として、主観的モデルエンジニアリングが確立される。
- 参考スコア(独自算出の注目度): 36.837352790122544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid deployment of Large Language Models and AI agents across critical societal and technical domains is hindered by persistent behavioral pathologies including sycophancy, hallucination, and strategic deception that resist mitigation via reinforcement learning. Current safety paradigms treat these failures as transient training artifacts, lacking a unified theoretical framework to explain their emergence and stability. Here we show that these misalignments are not errors, but mathematically rationalizable behaviors arising from model misspecification. By adapting Berk-Nash Rationalizability from theoretical economics to artificial intelligence, we derive a rigorous framework that models the agent as optimizing against a flawed subjective world model. We demonstrate that widely observed failures are structural necessities: unsafe behaviors emerge as either a stable misaligned equilibrium or oscillatory cycles depending on reward scheme, while strategic deception persists as a "locked-in" equilibrium or through epistemic indeterminacy robust to objective risks. We validate these theoretical predictions through behavioral experiments on six state-of-the-art model families, generating phase diagrams that precisely map the topological boundaries of safe behavior. Our findings reveal that safety is a discrete phase determined by the agent's epistemic priors rather than a continuous function of reward magnitude. This establishes Subjective Model Engineering, defined as the design of an agent's internal belief structure, as a necessary condition for robust alignment, marking a paradigm shift from manipulating environmental rewards to shaping the agent's interpretation of reality.
- Abstract(参考訳): 大規模言語モデルとAIエージェントを重要な社会的および技術的領域に迅速に配置することは、梅毒、幻覚、強化学習による緩和に抵抗する戦略的な騙しなど、永続的な行動病理によって妨げられている。
現在の安全パラダイムは、これらの障害を過渡的なトレーニングアーティファクトとして扱い、それらの出現と安定性を説明するための統一された理論的な枠組みを欠いている。
ここでは、これらのミスアライメントは誤りではなく、モデルの不特定から生じる数学的に合理的な振る舞いであることを示す。
理論経済学から人工知能へのバークナッシュ合理化性の適用により、エージェントを欠陥のある主観的世界モデルに対して最適化するものとしてモデル化する厳格な枠組みが導出される。
不安全行動は、報酬スキームによる安定な不整合均衡または振動周期として出現する一方、戦略的偽装は「ロックイン」均衡または客観的リスクに対して堅牢な疫学的不確定性を通じて持続する。
我々は6つの最先端モデルファミリーの行動実験を通じてこれらの理論的予測を検証し、安全な行動の位相的境界を正確にマッピングする位相図を生成する。
以上の結果から,安全性は報酬等級の連続的な機能ではなく,エージェントの先天的な先行性によって決定される個別の段階であることが判明した。
これは、エージェントの内部信念構造の設計として定義された主観的モデル工学を、堅牢なアライメントに必要な条件として確立し、環境報酬の操作からエージェントの現実の解釈を形成するためのパラダイムシフトを示す。
関連論文リスト
- Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - The Causal Round Trip: Generating Authentic Counterfactuals by Eliminating Information Loss [4.166536642958902]
構造再構成誤差(SRE)を除去して因果音を発生させる最初の拡散型フレームワークであるBELM-MDCMを紹介する。
我々の研究は、古典的因果論の厳密さと近代的な生成モデルのパワーを調和させる。
論文 参考訳(メタデータ) (2025-11-07T13:37:23Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Knowledge Collapse in LLMs: When Fluency Survives but Facts Fail under Recursive Synthetic Training [2.094557609248011]
大規模な言語モデルは、人間が書き込んだコンテンツの不足のために、合成データにますます依存している。
モデル生成出力に対する再帰的なトレーニングは、事実の信頼性を脅かす退化過程であるモデル崩壊につながる。
論文 参考訳(メタデータ) (2025-09-05T04:29:15Z) - When Counterfactual Reasoning Fails: Chaos and Real-World Complexity [1.9223856107206057]
構造因果モデルの枠組みにおける反実的推論の限界について検討する。
低次モデル不確実性やカオス力学といった現実的な仮定は、直観に反する結果をもたらす。
この研究は、カオスと不確実性を特徴とする設定に反実的推論を適用する際に注意を促している。
論文 参考訳(メタデータ) (2025-03-31T08:14:51Z) - Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。
本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。
混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文 参考訳(メタデータ) (2025-02-19T05:30:46Z) - Stochasticity in Motion: An Information-Theoretic Approach to Trajectory Prediction [9.365269316773219]
本稿では、軌道予測における不確実性モデリングの課題を全体論的アプローチで解決する。
情報理論を基礎とした本手法は,不確実性を測定する理論的に原理化された方法を提供する。
従来の作業とは異なり、我々のアプローチは最先端のモーション予測器と互換性があり、より広い適用性を実現している。
論文 参考訳(メタデータ) (2024-10-02T15:02:32Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - System Theoretic View on Uncertainties [0.0]
本稿では,性能制限に対処するシステム理論アプローチを提案する。
我々は不確実性、すなわち知識の欠如に基づく分類を根本原因とする。
論文 参考訳(メタデータ) (2023-03-07T16:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。