論文の概要: SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.06636v1
- Date: Wed, 08 Apr 2026 03:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.322186
- Title: SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
- Title(参考訳): SHAPE: LLM推論のためのポテンシャル推定による段階認識階層的アドバンテージ
- Authors: Zhengyang Ai, Zikang Shan, Xiaodong Ai, Jingxian Tang, Hangkai Hu, Pinyan Lu,
- Abstract要約: 本研究では,経験的可解性の状態空間を通じて推論を軌道として定式化するフレームワークであるSHAPEを提案する。
3つのベースモデルと5つのベンチマークによる数学推論実験により、SHAPEは平均精度3%、トークン消費量30%の精度向上を達成した。
- 参考スコア(独自算出の注目度): 6.0543650695018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process supervision has emerged as a promising approach for enhancing LLM reasoning, yet existing methods fail to distinguish meaningful progress from mere verbosity, leading to limited reasoning capabilities and unresolved token inefficiency. To address this, we propose Stage-aware Hierarchical Advantage via Potential Estimation (SHAPE), a framework that formalizes reasoning as a trajectory through a state space of empirical solvability. SHAPE introduces a hierarchical credit assignment mechanism: at the segment level, it employs a stage-aware advantage function to prioritize efficient breakthroughs in low-potential states; at the token level, it utilizes entropy-driven redistribution to sharpen execution signals. Extensive experiments in math reasoning across three base models and five benchmarks demonstrate that SHAPE achieves an average accuracy gain of 3% with 30% reduced token consumption.
- Abstract(参考訳): プロセスの監督はLSM推論を強化するための有望なアプローチとして現れてきたが、既存の手法は単なる冗長性から有意義な進歩を区別することができず、推論能力の制限と未解決トークンの非効率性に繋がる。
そこで我々は,経験的可解性の状態空間を通じて推論を軌道として形式化するフレームワークであるSHAPE(Stage-aware Hierarchical Advantage via potential Estimation)を提案する。
SHAPEは階層的な信用割当機構を導入しており、セグメントレベルでは、低電位状態における効率的なブレークスルーの優先順位付けにステージアウェア・アドバンテージ関数を使用し、トークンレベルではエントロピー駆動による再分配を使用して実行信号をシャープする。
3つのベースモデルと5つのベンチマークの数学推論における大規模な実験は、SHAPEが平均精度3%を達成し、トークン消費を30%減少させることを示した。
関連論文リスト
- Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models [10.04930078540686]
SCRIBEは、新しい中間レベルの抽象化に介入する強化学習フレームワークである。
さまざまな推論とツール使用ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-07T03:49:48Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。
我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。
分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文 参考訳(メタデータ) (2025-07-24T12:46:40Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。