論文の概要: Self-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignment
- arxiv url: http://arxiv.org/abs/2510.03223v1
- Date: Fri, 03 Oct 2025 17:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.532311
- Title: Self-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignment
- Title(参考訳): Self-Anchor: ステップバイステップアテンションアライメントによる大規模言語モデル推論
- Authors: Hongxiang Zhang, Yuan Tian, Tianyi Zhang,
- Abstract要約: 本稿では、推論の固有の構造を利用して注意を喚起する新しいパイプラインであるSelf-Anchorを提案する。
Self-Anchorは推論軌跡を構造化された計画に分解し、モデルの注意を最も関連する推論ステップに自動的に合わせる。
特に、Self-Anchorは、非推論モデルと特別な推論モデルの間のパフォーマンスギャップを著しく減らします。
- 参考スコア(独自算出の注目度): 7.411619300683893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To solve complex reasoning tasks for Large Language Models (LLMs), prompting-based methods offer a lightweight alternative to fine-tuning and reinforcement learning. However, as reasoning chains extend, critical intermediate steps and the original prompt will be buried in the context, receiving insufficient attention and leading to errors. In this paper, we propose Self-Anchor, a novel pipeline that leverages the inherent structure of reasoning to steer LLM attention. Self-Anchor decomposes reasoning trajectories into structured plans and automatically aligns the model's attention to the most relevant inference steps, allowing the model to maintain focus throughout generation. Our experiment shows that Self-Anchor outperforms SOTA prompting methods across six benchmarks. Notably, Self-Anchor significantly reduces the performance gap between ``non-reasoning'' models and specialized reasoning models, with the potential to enable most LLMs to tackle complex reasoning tasks without retraining.
- Abstract(参考訳): LLM(Large Language Models)の複雑な推論タスクを解決するために、プロンプトベースの手法は微調整と強化学習の軽量な代替手段を提供する。
しかし、推論チェーンが拡張されると、臨界中間ステップと元のプロンプトがコンテキストに埋もれ、注意が不足しエラーにつながる。
本稿では,LLMの注意を喚起するために,推論の固有の構造を活用する新しいパイプラインであるSelf-Anchorを提案する。
Self-Anchorは、推論の軌跡を構造化された計画に分解し、モデルの注意を最も関連する推論ステップに自動的に整合させ、モデルが世代を通してフォーカスを維持することを可能にする。
実験の結果、Self-Anchorは6つのベンチマークでSOTAよりも優れていることがわかった。
特に、Self-Anchorは ``non-reasoning' モデルと特殊推論モデルのパフォーマンスギャップを著しく減らし、ほとんどのLCMが再訓練せずに複雑な推論タスクに対処できる可能性がある。
関連論文リスト
- ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。