Fugu-MT 論文翻訳(概要): LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

論文の概要: LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

arxiv url: http://arxiv.org/abs/2505.19187v1
Date: Sun, 25 May 2025 15:17:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.962019
Title: LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling
Title（参考訳）: LIMOPro: 効率的なテストタイムスケーリングのためのリファインメント
Authors: Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu,
Abstract要約: PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
参考スコア（独自算出の注目度）: 29.721108461390973
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable reasoning capabilities through test-time scaling approaches, particularly when fine-tuned with chain-of-thought (CoT) data distilled from more powerful large reasoning models (LRMs). However, these reasoning chains often contain verbose elements that mirror human problem-solving, categorized as progressive reasoning (the essential solution development path) and functional elements (verification processes, alternative solution approaches, and error corrections). While progressive reasoning is crucial, the functional elements significantly increase computational demands during test-time inference. We introduce PIR (Perplexity-based Importance Refinement), a principled framework that quantitatively evaluates the importance of each reasoning step based on its impact on answer prediction confidence. PIR systematically identifies and selectively prunes only low-importance functional steps while preserving progressive reasoning components, creating optimized training data that maintains the integrity of the core solution path while reducing verbosity. Models fine-tuned on PIR-optimized data exhibit superior test-time scaling properties, generating more concise reasoning chains while achieving improved accuracy (+0.9\% to +6.6\%) with significantly reduced token usage (-3\% to -41\%) across challenging reasoning benchmarks (AIME, AMC, and GPQA Diamond). Our approach demonstrates strong generalizability across different model sizes, data sources, and token budgets, offering a practical solution for deploying reasoning-capable LLMs in scenarios where efficient test-time scaling, response time, and computational efficiency are valuable constraints.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特により強力な大規模推論モデル(LRM)から抽出されたチェーン・オブ・シント(CoT)データを微調整した場合、テスト時間スケーリングアプローチを通じて顕著な推論能力を示した。しかしながら、これらの推論連鎖はしばしば、人間の問題解決を反映する冗長な要素を含み、進歩的推論(本質的なソリューション開発パス)と機能的要素(検証プロセス、代替ソリューションアプローチ、エラー修正)に分類される。プログレッシブ推論は重要であるが、機能的要素はテスト時間推論における計算要求を大幅に増加させる。 PIR(Perplexity-based Importance Refinement)は,回答予測の信頼性への影響に基づいて,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを体系的に識別し、選択的に実行し、冗長性を低減しつつ、コアソリューションパスの整合性を維持する最適化されたトレーニングデータを作成する。 PIR最適化データに微調整されたモデルは、より優れたテスト時間スケーリング特性を示し、より簡潔な推論チェーンを生成しながら、より精度(+0.9\%から+6.6\%)を向上し、難解な推論ベンチマーク(AIME、AMC、GPQAダイアモンド)でトークン使用率(-3\%から-41\%)を著しく低減した。提案手法は,多種多様なモデルサイズ,データソース,トークン予算をまたいだ強力な一般化可能性を示し,効率的なテスト時間スケーリング,応答時間,計算効率が重要な制約となるシナリオにおいて,推論可能なLCMをデプロイするための実用的なソリューションを提供する。

関連論文リスト

SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。 We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文参考訳（メタデータ） (2025-07-06T11:21:47Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文参考訳（メタデータ） (2025-05-27T20:59:29Z)
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。トークン消費量を30～55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳（メタデータ） (2025-05-27T03:18:31Z)
Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文参考訳（メタデータ） (2025-05-23T13:38:56Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。 MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文参考訳（メタデータ） (2025-05-12T18:04:39Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文参考訳（メタデータ） (2024-10-10T17:14:36Z)
Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。提案手法は,従来の検証手法に比べて2～3倍の効率を維持しつつ,大幅な精度向上(8～11%)を実現している。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。