論文の概要: TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping
- arxiv url: http://arxiv.org/abs/2604.21057v1
- Date: Wed, 22 Apr 2026 20:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.164458
- Title: TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping
- Title(参考訳): TRACES: 適応的コスト効率の良いアーリーストッピングのための推論ステップ
- Authors: Yannis Belkhiter, Seshu Tirupathi, Giulio Zizzo, John D. Kelleher,
- Abstract要約: TRACESは、推論ステップをリアルタイムでタグ付けする軽量フレームワークです。
その結果, LRMは正しい回答を得た後, 推論行動を変える傾向にあることがわかった。
本研究では,特定のステップのモニタリングにより,効果的に解釈可能な早期停止基準を導出できることを実証する。
- 参考スコア(独自算出の注目度): 5.190961793309368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Language Reasoning Models (LRMs) has been very active over the past few years with advances in training and inference techniques enabling LRMs to reason longer, and more accurately. However, a growing body of studies show that LRMs are still inefficient, over-generating verification and reflection steps. Additionally, the high-level role of each reasoning step and how different step types contribute to the generation of correct answers, is largely underexplored. To address this challenge, we introduce TRACES (Tagging of the Reasoning steps enabling Adaptive Cost-Efficient early-Stopping), a lightweight framework that tags reasoning steps in real-time, and enable adaptive, cost-efficient early stopping of large-language-model inferences. Building on this framework we monitor reasoning behaviors during inferences, and we find that LRMs tend to shift their reasoning behavior after reaching a correct answer. We demonstrate that the monitoring of the specific type of steps can produce effective interpretable early stopping criteria. We evaluate the TRACES framework on three mathematical reasoning benchmarks, namely, MATH500, GSM8K, AIME and two knowledge and reasoning benchmarks, MMLU and GPQA respectively. We achieve 20 to 50% token reduction while maintaining comparable accuracy to standard generation.
- Abstract(参考訳): 言語推論モデル(Language Reasoning Models, LRM)の分野は、LRMがより長く正確に推論できる訓練と推論技術の進歩により、ここ数年で非常に活発に活動してきた。
しかし、成長する研究機関は、LRMは依然として非効率であり、過剰に生成する検証と反射のステップであることを示した。
さらに、各推論ステップのハイレベルな役割と、異なるステップタイプが正しい回答の生成にどのように貢献するかは、ほとんど調査されていない。
この課題に対処するために、TRACES (Tagging of the Reasoning steps enabling Adaptive Cost-Efficient Early-Stopping)という、リアルタイムに推論ステップをタグ付けし、大規模言語モデル推論の適応的でコスト効率の良い早期停止を可能にする軽量フレームワークを紹介します。
このフレームワークを構築すれば、推論中の推論動作を監視し、正しい回答に達した後、LEMは推論動作をシフトする傾向にある。
本研究では,特定のステップのモニタリングにより,効果的に解釈可能な早期停止基準を導出できることを実証する。
TRACESフレームワークを,MATH500,GSM8K,AIMEの3つの数学的推論ベンチマーク,MMLU,GPQAの2つの知識と推論ベンチマークで評価した。
標準生成に匹敵する精度を維持しつつ,20~50%のトークン削減を実現している。
関連論文リスト
- CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization [54.774620283208776]
大きな推論モデル(LRM)は、複雑な問題に対処するための長いチェーン・オブ・シント(CoT)推論を強調する。
既存の方法は、CoTトレースから望ましくない知識を完全に排除するか、推論プロセスへの干渉によって推論性能を低下させるかのいずれかである。
LRMにおけるCoT推論の目的的介入として、非学習を再定義する新しいフレームワークである反復的選好最適化(CiPO)を通じて、対実的アンラーニングを導入する。
論文 参考訳(メタデータ) (2026-04-17T08:56:36Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Step-Tagging: Toward controlling the generation of Language Reasoning Models through step monitoring [5.190961793309368]
言語推論モデル(Language Reasoning Models, LRMs)は依然として非効率であり、過剰に生成される検証と反射のステップである。
LRMが生成する推論ステップのタイプをリアルタイムにアノテーションできる軽量な文分類器であるStep-Taggingフレームワークを導入する。
特定のステップの数のオンラインモニタリングは、LRM推論の効果的な早期停止基準を導出することができる。
論文 参考訳(メタデータ) (2025-12-16T12:01:16Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [20.686094849756937]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。