論文の概要: The Shape of Wisdom: Decision Trajectories in Language Models
- arxiv url: http://arxiv.org/abs/2606.01202v1
- Date: Sun, 31 May 2026 12:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.377586
- Title: The Shape of Wisdom: Decision Trajectories in Language Models
- Title(参考訳): 知の形状:言語モデルにおける決定軌道
- Authors: Shailesh Rana,
- Abstract要約: 言語モデルは単に出力層で答えを選択するだけではない。
Qwen2.5-7B-インストラクト、Llama-3.1-8B-インストラクト、Mistral-7B-インストラクト-v0.3の9000トラックのMMLU研究において、答えのスコアは構造化された方法で深さを移動している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models do not simply choose an answer at the output layer. In a 9,000-trajectory MMLU study across Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, and Mistral-7B-Instruct-v0.3, the score of the answer moves across depth in structured ways. We describe each trajectory with three quantities: the current answer margin, the next-layer change in that margin, and the distance from a decision flip. The main empirical picture is that correctness and stability are different: the largest group is unstable-correct, not stable-correct. A traced subset then asks what moves the margin. In stable-correct cases, the average attention scalar points in the correct direction, while the average MLP scalar does not; span deletion shows that removing answer-supporting text hurts the margin and removing distractor-like text helps it. The result is not a full circuit explanation. It is a reproducible way to see which answers are settled, which remain fragile, and which measured sources move them.
- Abstract(参考訳): 言語モデルは単に出力層で答えを選択するだけではない。
Qwen2.5-7B-インストラクト、Llama-3.1-8B-インストラクト、Mistral-7B-インストラクト-v0.3の9000トラックのMMLU研究において、答えのスコアは構造化された方法で深さを移動している。
それぞれのトラジェクトリは、現在の回答マージン、そのマージンの次の層変化、決定フリップからの距離の3つの量で記述する。
最大の群は不安定で、安定ではない。
トレースされた部分集合は、何がマージンを移動させるのかを問う。
安定した場合、平均的な注意スカラーは正しい方向に向けられるが、平均的なMLPスカラーはそうではない。
その結果は完全な回路の説明ではない。
これは、どの答えが落ち着いたか、どの答えが脆弱であり、どの情報源がそれらを動かすかを知る再現可能な方法である。
関連論文リスト
- Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts [51.84894623128418]
現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
論文 参考訳(メタデータ) (2026-05-08T06:15:50Z) - Pando: Do Interpretability Methods Work When Models Won't Explain Themselves? [53.07826484214082]
モデル・オーガニゼーションのベンチマークであるPandoを紹介します。
Pandoは、ラベル付きクエリ-レスポンスペアから、ホールドアウトモデル決定を予測する。
説明が忠実であれば、ブラックボックスの引用はすべてのホワイトボックスメソッドに一致するか、超える。
論文 参考訳(メタデータ) (2026-04-13T06:42:24Z) - How Transformers Reject Wrong Answers: Rotational Dynamics of Factual Constraint Processing [0.2538209532048866]
モデル処理が誤り継続に対して正しい場合,内部表現がネットワークの全深度にわたってどのように分散するかを検討する。
本稿では,既知の正確かつ不正な単一トークン継続で同一のクエリを提示する手法である強制補完探索を導入する。
まず, 正しい経路と誤経路が回転によって分岐し, 再スケーリングは行わない。
第二に、モデルは間違った入力に対して受動的に失敗せず、正しい答えを積極的に抑制し、内部確率を正しいトークンから遠ざける。
論文 参考訳(メタデータ) (2026-02-25T08:12:47Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - I've got the "Answer"! Interpretation of LLMs Hidden States in Question Answering [0.0]
本稿では,知識に基づく質問応答の文脈における大規模言語モデル(LLM)の解釈について検討する。
この研究の主な仮説は、正誤モデル行動は隠れた状態のレベルで区別できるというものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:12Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Does Circuit Analysis Interpretability Scale? Evidence from Multiple
Choice Capabilities in Chinchilla [6.625597238953314]
本稿では,70Bチンチラモデルにおける回路解析のケーススタディを示す。
我々は,正しい回答文の知識を与えられた正しい回答文を識別するチチラの能力について検討する。
本研究は,特徴のセマンティクスを理解することを目的としたアテンションヘッドの正しい文字のカテゴリーについて,混合結果を用いて検討する。
論文 参考訳(メタデータ) (2023-07-18T17:39:04Z) - To Answer or Not to Answer? Improving Machine Reading Comprehension
Model with Span-based Contrastive Learning [9.490758388465697]
本研究では,解答可能な質問を,解答可能で解答不能な質問と明示的に対比するスパンシブ・ラーニング(spanCL)を提案する。
SQuAD 2.0データセットの実験では、spanceCLはベースラインを大幅に改善し、0.86-2.14の絶対EM改善をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-08-02T08:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。