論文の概要: Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
- arxiv url: http://arxiv.org/abs/2602.04918v1
- Date: Wed, 04 Feb 2026 06:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.540728
- Title: Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
- Title(参考訳): シミュレーション適用: LLMインコンテキスト衝突解決におけるマグニチュードと方向の分離
- Authors: Long Zhang, Fangwei Lin,
- Abstract要約: 大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
- 参考スコア(独自算出の注目度): 3.0242762196828448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently prioritize conflicting in-context information over pre-existing parametric memory, a phenomenon often termed sycophancy or compliance. However, the mechanistic realization of this behavior remains obscure, specifically how the model resolves these knowledge conflicts through compliance, and whether this suppression arises from signal magnitude dilution or directional geometric alteration within the residual stream. To resolve this, we conducted a layer-wise geometric analysis across Qwen-4B, Llama-3.1-8B, and GLM-4-9B, decomposing the residual stream updates induced by counter-factual contexts into radial (norm-based) and angular (cosine-based) components. Our empirical results reject the universality of the "Manifold Dilution" hypothesis, as two of the three architectures maintained stable residual norms despite exhibiting significant performance degradation on factual queries. Instead, we observed that compliance is consistently characterized by "Orthogonal Interference," where the conflicting context injects a steering vector that is quasi-orthogonal to the ground-truth direction, effectively rotating the hidden state representation. This suggests that models do not "unlearn" or suppress the magnitude of internal truths but rather employ a mechanism of geometric displacement to bypass the correct unembedding vector, effectively simulating adoption while preserving the original structural magnitude. These findings challenge scalar confidence metrics for detecting hallucinations and underscore the necessity of vectorial monitoring to distinguish between genuine knowledge integration and superficial in-context mimicry.
- Abstract(参考訳): 大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での情報を優先することが多い。
しかし、この挙動の機械的実現は、特にモデルがこれらの知識の相反をコンプライアンスを通してどのように解決するか、また、この抑制が信号の大きさの希釈や残留ストリーム内の幾何的変化から生じるのか、はっきりしないままである。
そこで我々はQwen-4B, Llama-3.1-8B, GLM-4-9Bの3次元幾何学的解析を行い, 反事実的文脈による残差ストリーム更新を放射状(ノルム系)成分と角状(コサイン系)成分に分解した。
3つのアーキテクチャのうちの2つは、実数クエリで顕著な性能劣化を示したにもかかわらず、安定な残留ノルムを維持していたため、我々の経験的結果は、"Manifold Dilution"仮説の普遍性を否定した。
その代わりに、コンプライアンスは「直交干渉(Orthogonal Interference)」によって常に特徴付けられており、矛盾するコンテキストは、準直交する操舵ベクトルを接地-直交方向に注入し、隠れた状態表現を効果的に回転させる。
このことは、モデルが内部の真理の規模を「未学習」したり抑制したりするのではなく、むしろ幾何変位のメカニズムを用いて正しい非埋め込みベクトルをバイパスし、元の構造的大きさを保ちながら効果的に採用をシミュレートしていることを示唆している。
これらの知見は、幻覚を検出するためのスカラー信頼度基準に挑戦し、真の知識統合と表面的な文脈内模倣を区別するベクトルモニタリングの必要性を強調した。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - FlexCausal: Flexible Causal Disentanglement via Structural Flow Priors and Manifold-Aware Interventions [1.7114074082429929]
因果解離表現学習(Causal Disentangled Representation Learning)は、観測から低次元表現を学習し、解離することを目的とする。
本稿では,ブロック対角共分散VAEに基づく新しいCDRLフレームワークFlexCausalを提案する。
本フレームワークは,学習した潜在部分空間と基底-真理因果関係の正確な構造的対応を保証する。
論文 参考訳(メタデータ) (2026-01-29T11:30:53Z) - ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。
正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。
孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文 参考訳(メタデータ) (2026-01-03T22:39:20Z) - Manifold Percolation: from generative model to Reinforce learning [0.26905021039717986]
生成的モデリングは通常、学習マッピング規則としてフレーム化されるが、これらの規則にアクセスできない観察者の視点からすると、そのタスクは確率分布から幾何学的支援を引き離すことになる。
本研究は, サンプリングプロセスが, 高次元密度推定を支持面上の幾何カウント問題に効果的に投射するので, 連続体パーコレーションは, この支援解析に一意に適していることを示す。
論文 参考訳(メタデータ) (2025-11-25T17:12:42Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model [29.40036398095681]
推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
論文 参考訳(メタデータ) (2025-09-26T16:02:27Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - An Indirect Rate-Distortion Characterization for Semantic Sources:
General Model and the Case of Gaussian Observation [83.93224401261068]
ソースモデルは、情報の意味的側面に対する最近の関心の高まりによって動機付けられている。
intrinsic状態は、一般に観測不可能なソースの意味的特徴に対応する。
レート歪み関数は、ソースのセマンティックレート歪み関数である。
論文 参考訳(メタデータ) (2022-01-29T02:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。