論文の概要: Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
- arxiv url: http://arxiv.org/abs/2602.04918v2
- Date: Fri, 06 Feb 2026 04:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.071782
- Title: Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
- Title(参考訳): シミュレーション適用: LLMインコンテキスト衝突解決におけるマグニチュードと方向の分離
- Authors: Long Zhang, Fangwei Lin,
- Abstract要約: 大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
- 参考スコア(独自算出の注目度): 3.0242762196828448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently prioritize conflicting in-context information over pre-existing parametric memory, a phenomenon often termed sycophancy or compliance. However, the mechanistic realization of this behavior remains obscure, specifically how the model resolves these knowledge conflicts through compliance, and whether this suppression arises from signal magnitude dilution or directional geometric alteration within the residual stream. To resolve this, we conducted a layer-wise geometric analysis across Qwen-3-4B, Llama-3.1-8B, and GLM-4-9B, decomposing the residual stream updates induced by counter-factual contexts into radial (norm-based) and angular (cosine-based) components. Our empirical results reject the universality of the "Manifold Dilution" hypothesis, as two of the three architectures maintained stable residual norms despite exhibiting significant performance degradation on factual queries. Instead, we observed that compliance is consistently characterized by "Orthogonal Interference," where the conflicting context injects a steering vector that is quasi-orthogonal to the ground-truth direction, effectively rotating the hidden state representation. This suggests that models do not "unlearn" or suppress the magnitude of internal truths but rather employ a mechanism of geometric displacement to bypass the correct unembedding vector, effectively simulating adoption while preserving the original structural magnitude. These findings challenge scalar confidence metrics for detecting hallucinations and underscore the necessity of vectorial monitoring to distinguish between genuine knowledge integration and superficial in-context mimicry.
- Abstract(参考訳): 大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での情報を優先することが多い。
しかし、この挙動の機械的実現は、特にモデルがこれらの知識の相反をコンプライアンスを通してどのように解決するか、また、この抑制が信号の大きさの希釈や残留ストリーム内の幾何的変化から生じるのか、はっきりしないままである。
そこで我々はQwen-3-4B, Llama-3.1-8B, GLM-4-9Bの3次元幾何学的解析を行い, 反実環境による残差ストリーム更新を放射状(ノルム系)成分と角状(コサイン系)成分に分解した。
3つのアーキテクチャのうちの2つは、実数クエリで顕著な性能劣化を示したにもかかわらず、安定な残留ノルムを維持していたため、我々の経験的結果は、"Manifold Dilution"仮説の普遍性を否定した。
その代わりに、コンプライアンスは「直交干渉(Orthogonal Interference)」によって常に特徴付けられており、矛盾するコンテキストは、準直交する操舵ベクトルを接地-直交方向に注入し、隠れた状態表現を効果的に回転させる。
このことは、モデルが内部の真理の規模を「未学習」したり抑制したりするのではなく、むしろ幾何変位のメカニズムを用いて正しい非埋め込みベクトルをバイパスし、元の構造的大きさを保ちながら効果的に採用をシミュレートしていることを示唆している。
これらの知見は、幻覚を検出するためのスカラー信頼度基準に挑戦し、真の知識統合と表面的な文脈内模倣を区別するベクトルモニタリングの必要性を強調した。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - When Backdoors Go Beyond Triggers: Semantic Drift in Diffusion Models Under Encoder Attacks [2.4923006485141284]
エンコーダ側の中毒は持続的かつトリガーフリーなセマンティックな腐敗を引き起こすことを実証する。
バックドアは低ランクで目標中心の変形として機能し、局所的な感度を増幅し、乱れがセマンティックな近傍を連続的に伝播する。
本研究は, 拡散および対照的なパラダイムにまたがって検証され, エンコーダ中毒の深い構造的リスクを明らかにし, 単純な攻撃成功率を超える幾何的監査の必要性を強調した。
論文 参考訳(メタデータ) (2026-02-21T23:48:04Z) - Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning [23.616336786063552]
フローマッチングは、生成モデリングの強力なフレームワークとして登場した。
速度に基づく目的と結合した場合に発生する潜在構造ミスマッチを同定する。
信号空間に対する目的の再調整が特異重み付けを排除していることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:02:30Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - FlexCausal: Flexible Causal Disentanglement via Structural Flow Priors and Manifold-Aware Interventions [1.7114074082429929]
因果解離表現学習(Causal Disentangled Representation Learning)は、観測から低次元表現を学習し、解離することを目的とする。
本稿では,ブロック対角共分散VAEに基づく新しいCDRLフレームワークFlexCausalを提案する。
本フレームワークは,学習した潜在部分空間と基底-真理因果関係の正確な構造的対応を保証する。
論文 参考訳(メタデータ) (2026-01-29T11:30:53Z) - ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。
正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。
孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文 参考訳(メタデータ) (2026-01-03T22:39:20Z) - Manifold Percolation: from generative model to Reinforce learning [0.26905021039717986]
生成的モデリングは通常、学習マッピング規則としてフレーム化されるが、これらの規則にアクセスできない観察者の視点からすると、そのタスクは確率分布から幾何学的支援を引き離すことになる。
本研究は, サンプリングプロセスが, 高次元密度推定を支持面上の幾何カウント問題に効果的に投射するので, 連続体パーコレーションは, この支援解析に一意に適していることを示す。
論文 参考訳(メタデータ) (2025-11-25T17:12:42Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model [29.40036398095681]
推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
論文 参考訳(メタデータ) (2025-09-26T16:02:27Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - An Indirect Rate-Distortion Characterization for Semantic Sources:
General Model and the Case of Gaussian Observation [83.93224401261068]
ソースモデルは、情報の意味的側面に対する最近の関心の高まりによって動機付けられている。
intrinsic状態は、一般に観測不可能なソースの意味的特徴に対応する。
レート歪み関数は、ソースのセマンティックレート歪み関数である。
論文 参考訳(メタデータ) (2022-01-29T02:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。