論文の概要: How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning
- arxiv url: http://arxiv.org/abs/2604.19149v1
- Date: Tue, 21 Apr 2026 06:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.66217
- Title: How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning
- Title(参考訳): 解答者はどのようにして推論トレースを読み込むか? : 定量推論のためのLCMの自己読解パターン
- Authors: Haoyang Chen, Yi Liu, Jianzhi Shao, Tao Zhang, Chengfu Huo, Wei Hu,
- Abstract要約: 応答対推論の注意を解析し、正当性に整合した良質な自己読解パターンを観察する。
本稿では,自己読解品質(SRQ)スコアによって駆動される学習自由なステアリング手法を提案し,プロセス制御のための幾何学的指標とコンテンツ監視のための意味的指標を組み合わせた。
- 参考スコア(独自算出の注目度): 14.803331273106906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thinking LLMs produce reasoning traces before answering. Prior activation steering work mainly targets on shaping these traces. It remains less understood how answer tokens actually read and integrate the reasoning to produce reliable outcomes. Focusing on quantitative reasoning, we analyze the answer-to-reasoning attention and observe a benign self-reading pattern aligned with correctness, characterized by a forward drift of the reading focus along the reasoning trace and a persistent concentration on key semantic anchors, whereas incorrect solutions exhibit diffuse and irregular attention pattern. We interpret this as internal certainty during answer decoding, where the model commits to a viable solution branch and integrates key evidence. Following this, we propose a training-free steering method driven by Self-Reading Quality (SRQ) scores combining geometric metrics for process control with semantic metrics for content monitoring. SRQ selects data to build steering vectors that guide inference toward benign self-reading and away from uncertain and disorganized reading. Experiments show that our method yields consistent accuracy gains.
- Abstract(参考訳): LLMは答える前に推論トレースを生成する。
以前のアクティベーションステアリングは主にこれらのトレースを形作ることを目的としていた。
回答トークンが実際にどのように読み取られ、信頼できる結果を生み出すための推論を統合するかは、まだ理解されていない。
量的推論に焦点をあてて, 解答対推論の注意を解析し, 正当性に整合した良性自己読解パターンを観察した。
ここでは、モデルが実行可能なソリューションブランチにコミットし、重要なエビデンスを統合する。
次に,SRQ(Self-Reading Quality)スコアによって駆動される学習自由なステアリング手法を提案し,プロセス制御のための幾何学的指標とコンテンツ監視のための意味的指標を組み合わせた。
SRQはデータを選択して、ベクタベクタを構築し、ベクタベクタをベクタベクタからベクタベクタへ誘導し、不確実で非組織的な読み方から遠ざかる。
実験により,本手法が一貫した精度向上をもたらすことが示された。
関連論文リスト
- FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - From Reasoning to Answer: Empirical, Attention-Based and Mechanistic Insights into Distilled DeepSeek R1 Models [48.01707022738742]
蒸留した3種類のDeepSeek R1モデルにおいて、推論と回答生成の相互作用を3段階に分けて検討する。
明示的な推論を含めることで、さまざまな領域での回答品質が一貫して向上することを示す。
以上の結果から,重要な推論トークンに対する摂動が最終回答を確実に変更できることが示唆された。
論文 参考訳(メタデータ) (2025-09-28T06:32:21Z) - SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification [28.63435151584449]
本稿では,対象モデルの自己監督により検証者の判断を訓練するSelfJudgeを提案する。
本手法は,トークン置換応答が本来の応答の意味を保っているかどうかを評価することによって意味保存を測定する。
論文 参考訳(メタデータ) (2025-09-26T02:21:12Z) - Read Before You Think: Mitigating LLM Comprehension Failures with Step-by-Step Reading [2.073147245888634]
大きな言語モデル(LLM)は、問題理解の欠陥によって複雑な推論タスクで失敗することが多い。
本稿では,これらの理解障害について,系統的研究を行う。
本稿では,ステップ・バイ・ステップ・レディング(SSR)ファミリについて紹介する。
論文 参考訳(メタデータ) (2025-04-13T02:10:18Z) - Zero-Shot Verification-guided Chain of Thoughts [64.862738244735]
我々は,COTプロンプトによる自己生成推論ステップの自己検証に着目する。
この設定を探索するため、我々はCOT STEPと呼ばれる新しいゼロショットプロンプトを設計し、推論ステップのゼロショット分解を支援する。
我々は,検証者の推論連鎖の正しさを分類する能力を評価し,推論の導出に検証者のスコアを使用する方法を探究する。
論文 参考訳(メタデータ) (2025-01-21T03:52:54Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。