論文の概要: Step-Tagging: Toward controlling the generation of Language Reasoning Models through step monitoring
- arxiv url: http://arxiv.org/abs/2512.14332v1
- Date: Tue, 16 Dec 2025 12:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.706973
- Title: Step-Tagging: Toward controlling the generation of Language Reasoning Models through step monitoring
- Title(参考訳): ステップタギング:ステップモニタリングによる言語推論モデルの生成制御に向けて
- Authors: Yannis Belkhiter, Seshu Tirupathi, Giulio Zizzo, John D. Kelleher,
- Abstract要約: 言語推論モデル(Language Reasoning Models, LRMs)は依然として非効率であり、過剰に生成される検証と反射のステップである。
LRMが生成する推論ステップのタイプをリアルタイムにアノテーションできる軽量な文分類器であるStep-Taggingフレームワークを導入する。
特定のステップの数のオンラインモニタリングは、LRM推論の効果的な早期停止基準を導出することができる。
- 参考スコア(独自算出の注目度): 5.190961793309368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Language Reasoning Models (LRMs) has been very active over the past few years with advances in training and inference techniques enabling LRMs to reason longer, and more accurately. However, a growing body of studies show that LRMs are still inefficient, over-generating verification and reflection steps. To address this challenge, we introduce the Step-Tagging framework, a lightweight sentence-classifier enabling real-time annotation of the type of reasoning steps that an LRM is generating. To monitor reasoning behaviors, we introduced ReasonType: a novel taxonomy of reasoning steps. Building on this framework, we demonstrated that online monitoring of the count of specific steps can produce effective interpretable early stopping criteria of LRM inferences. We evaluate the Step-tagging framework on three open-source reasoning models across standard benchmark datasets: MATH500, GSM8K, AIME and non-mathematical tasks (GPQA and MMLU-Pro). We achieve 20 to 50\% token reduction while maintaining comparable accuracy to standard generation, with largest gains observed on more computation-heavy tasks. This work offers a novel way to increase control over the generation of LRMs, and a new tool to study behaviors of LRMs.
- Abstract(参考訳): 言語推論モデル(Language Reasoning Models、LRMs)の分野は、LRMがより長く正確に推論できる訓練と推論技術の進歩により、ここ数年で非常に活発に活動してきた。
しかし、成長する研究機関は、LRMは依然として非効率であり、過剰に生成する検証と反射のステップであることを示した。
この課題に対処するために,LRMが生成する推論ステップのタイプをリアルタイムにアノテーションできる軽量な文分類器であるStep-Taggingフレームワークを導入する。
推論の振る舞いを監視するために、推論ステップの新しい分類法であるReasonTypeを紹介した。
この枠組みに基づいて、特定ステップ数に対するオンラインモニタリングにより、LRM推論の早期停止基準を効果的に解釈できることを実証した。
標準ベンチマークデータセットであるMATH500, GSM8K, AIME, 非数学タスク(GPQA, MMLU-Pro)の3つのオープンソース推論モデルのステップタグ化フレームワークの評価を行った。
我々は、より計算量の多いタスクで最大ゲインを観測し、標準生成に匹敵する精度を維持しながら、20~50倍のトークン削減を実現した。
この研究は、LRMの発生を制御する新しい方法と、LRMの挙動を研究するための新しいツールを提供する。
関連論文リスト
- TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning [77.01182934427095]
TaTTooは、ツールベースの検証を統合し、正確な報酬管理を提供する新しいテーブルグラウンドのPRMフレームワークである。
私たちはTTTooを2段階のパラダイムでトレーニングします。ツール使用推論パターンをキャプチャするために、コールドスタートの教師による微調整を行い、続いて強化学習を行い、私たちのモデルをテーブルベースの検証と整合させます。
論文 参考訳(メタデータ) (2025-10-07T17:59:41Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。
本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。
本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文 参考訳(メタデータ) (2025-03-03T15:20:41Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。