論文の概要: Efficient LLM Reasoning via Variational Posterior Guidance with Efficiency Awareness
- arxiv url: http://arxiv.org/abs/2605.11019v1
- Date: Sun, 10 May 2026 15:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.306188
- Title: Efficient LLM Reasoning via Variational Posterior Guidance with Efficiency Awareness
- Title(参考訳): 変分後指導による効率なLDM推論
- Authors: Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang,
- Abstract要約: 既存の強化学習手法は、精巧な報酬関数を設計することで推論チェーンを圧縮する。
我々は,理論の基礎として,効率性に留意した証拠を低い範囲に導入する。
DeepSeek-R1-Distill-Qwen-1.5Bおよび7Bスケールの実験では、VPG-EAは各モデルサイズで最強のベースラインよりも8.73%、12.37%の総合的な効率の指標である。
- 参考スコア(独自算出の注目度): 2.83639496314338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models rely on chain-of-thought for complex reasoning, the overthinking phenomenon severely degrades inference efficiency. Existing reinforcement learning methods compress reasoning chains by designing elaborate reward functions, which renders high-quality samples extremely sparse in the exploration space and creates a sampling bottleneck for the prior policy. Inspired by cognitive science, we theoretically prove that a posterior distribution guided by reference answers achieves higher expected utility than the prior distribution, thus capable of breaking through the sampling bottleneck of high-quality samples. However, the posterior distribution is unavailable during inference. To this end, we formalize efficient reasoning as a variational inference problem and introduce an efficiency-aware evidence lower bound as the theoretical foundation. Based on this, we propose the VPG-EA framework. It adopts a parameter-shared dual-stream architecture to instantiate both the posterior distribution and the prior policy; after filtering out pseudo-efficient paths via cross-view evaluation, it unidirectionally transfers the posterior's efficient patterns to the prior policy through variational distillation. Experiments on DeepSeek-R1-Distill-Qwen-1.5B and 7B scales demonstrate that VPG-EA improves the comprehensive efficiency metric epsilon cubed by 8.73% and 12.37% over the strongest baselines on each model size, respectively.
- Abstract(参考訳): 大きな言語モデルは複雑な推論の連鎖に依存しているが、過度に考え抜かれた現象は推論効率を著しく低下させる。
既存の強化学習手法では、精巧な報酬関数を設計し、探索空間において高品質なサンプルを極めて疎外し、事前のポリシーのサンプリングボトルネックを生じさせることによって、推論チェーンを圧縮する。
認知科学に触発されて, 基準回答によって導かれる後続分布が, 先行分布よりも高い期待有効性を実現し, 高品質サンプルのサンプリングボトルネックを突破することができることを理論的に証明した。
しかし、後部分布は推論時に利用できない。
この目的のために,効率的な推論を変分推論問題として定式化し,理論の基礎として,効率に敏感なエビデンスを低い境界に導入する。
そこで我々はVPG-EAフレームワークを提案する。
パラメータ共有されたデュアルストリームアーキテクチャを用いて後部分布と先行ポリシーの両方をインスタンス化し、相互ビュー評価により擬似効率の経路をフィルタリングした後、変分蒸留により後部の効率的なパターンを先行ポリシーに一方向転送する。
DeepSeek-R1-Distill-Qwen-1.5B と 7B のスケールの実験では、VPG-EA はそれぞれのモデルサイズで最強のベースラインよりも8.73%、12.37%の総合的な効率の指標である。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models [3.463914032107119]
グループ相対政策最適化(GRPO)は一般にすべてのトークンに対して一様でシーケンスレベルの利点を割り当てる。
本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
論文 参考訳(メタデータ) (2026-03-30T09:20:25Z) - P^2O: Joint Policy and Prompt Optimization [74.45293488495592]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
プロンプト最適化とポリシー最適化を相乗化する新しいフレームワークであるP2Oを提案する。
論文 参考訳(メタデータ) (2026-03-23T12:08:47Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。