論文の概要: Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation
- arxiv url: http://arxiv.org/abs/2605.11574v1
- Date: Tue, 12 May 2026 06:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.615311
- Title: Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation
- Title(参考訳): 文脈パラメトリック論争の3つのレジーム:予測的枠組みと実証的検証
- Authors: Pruthvinath Jeripity Venkata,
- Abstract要約: 大規模言語モデルが学習知識と矛盾する文書の相違にどのように対処するかを考察する。
本稿では,Regime 1 (単一ソース更新),Regime 2 (競合統合),Regime 3 (タスクに適した選択)という3つの登録フレームワークを提案する。
我々はClaude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick、DeepSeek V3の3つの実験段階で9,970のAPIコールを使用してフレームワークを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The literature on how large language models handle conflict between their training knowledge and a contradicting document presents a persistent empirical contradiction: some studies find models stubbornly retain their trained answers, ignoring provided documents nearly half the time, while others find models readily defer to the document, following context approximately 96% of the time. We argue these contradictions dissolve once one recognises that prior experiments have studied three qualitatively distinct processing situations without distinguishing them. We propose a three-regime framework: Regime 1 (single-source updating, dominant predictor: evidence coherence), Regime 2 (competitive integration, dominant predictor: parametric certainty), and Regime 3 (task-appropriate selection, dominant predictor: task knowledge requirement). We formalise a distinction between parametric strength (exposure frequency) and parametric uniqueness (encoding consistency), showing empirically that these are orthogonal dimensions (r = -0.002, p = .97) with strength as the operative predictor in stable factual domains. We validate the framework across Claude Sonnet 4.6, GPT-5.5, Gemini 2.5 Flash, Llama 4 Maverick, and DeepSeek V3 using 9,970 API calls in three experimental phases. GEE logistic regression confirms the predicted Regime 2 certainty gradient for all five models (beta = -0.38 to -0.50, all p <= .013, BH-FDR corrected). A Regime 3 ablation shows task framing alone flips context-following from near-100% (contextual knowledge condition) to 6-71% (parametric knowledge condition), with all five models significant (p < .001). The certainty gradient is robust to multinomial outcome modeling, sensitivity analyses for hedging responses, and FDR correction.
- Abstract(参考訳): 大規模な言語モデルがトレーニング知識と矛盾するドキュメントの矛盾を処理する方法についての文献は、永続的な経験的矛盾を呈している: ある研究では、トレーニングされた回答を頑固に保持し、提供されたドキュメントをほぼ半分に無視する一方で、ある研究では、およそ96%の文脈で、そのドキュメントに容易に従属するモデルを見つける。
これらの矛盾は、先行実験が3つの質的に異なる処理状況を区別せずに研究したと認識した後に解消される。
本稿では、Regime 1(ソース更新、支配的予測者:エビデンスコヒーレンス)、Regime 2(競争的統合、支配的予測者:パラメトリック確実性)、Regime 3(タスク適切な選択、支配的予測者:タスク知識要求)の3つのフレームワークを提案する。
我々は、パラメトリック強度(露光周波数)とパラメトリック特異性(符号化一貫性)の区別を定式化し、これらが安定な事実領域における操作予測器としての強度を持つ直交次元(r = -0.002, p = .97)であることを実証的に示す。
我々はClaude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick、DeepSeek V3の3つの実験段階で9,970のAPIコールを使用してフレームワークを検証する。
GEEロジスティック回帰は、予測された5つのモデル(beta = -0.38 to -0.50, all p <= .013, BH-FDR)に対するRegime 2の不確かさ勾配を確認する。
レジーム3のアブレーションは、タスクフレーミングだけでコンテキストフォローを約100%(コンテキスト知識条件)から6-71%(パラメトリック知識条件)に反転させ、すべての5つのモデルが有意である(p < .001)。
定性勾配は多項結果モデリング、ヘッジ応答の感度解析、FDR補正に頑健である。
関連論文リスト
- What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文 参考訳(メタデータ) (2026-05-03T20:05:08Z) - Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy [0.0]
複雑なマルチステップ推論を必要とするソフトウェアエンジニアリングベンチマークであるSWE-benchのコンテキストにおける一貫性について検討する。
モデル全体で、より高い一貫性と高い精度が一致していることが分かりました。
モデル内では、一貫性は正しい解釈と間違った解釈の両方を増幅することができる。
論文 参考訳(メタデータ) (2026-03-26T04:39:13Z) - Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures [0.0]
我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
論文 参考訳(メタデータ) (2026-03-22T21:50:28Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。