Fugu-MT 論文翻訳(概要): TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling

論文の概要: TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling

arxiv url: http://arxiv.org/abs/2505.17155v2
Date: Sat, 31 May 2025 13:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.426918
Title: TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling
Title（参考訳）: TrimR: 効率的なテスト時間スケーリングのための検証型学習自由思考圧縮
Authors: Weizhe Lin, Xing Li, Zhiyuan Yang, Xiaojin Fu, Hui-Ling Zhen, Yaoyuan Wang, Xianzhi Yu, Wulong Liu, Xiaosong Li, Mingxuan Yuan,
Abstract要約: 大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
参考スコア（独自算出の注目度）: 20.980976778470247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Reasoning Models (LRMs) demonstrate exceptional capability in tackling complex mathematical, logical, and coding tasks by leveraging extended Chain-of-Thought (CoT) reasoning. Test-time scaling methods, such as prolonging CoT with explicit token-level exploration, can push LRMs' accuracy boundaries, but they incur significant decoding overhead. A key inefficiency source is LRMs often generate redundant thinking CoTs, which demonstrate clear structured overthinking and underthinking patterns. Inspired by human cognitive reasoning processes and numerical optimization theories, we propose TrimR, a verifier-based, training-free, efficient framework for dynamic CoT compression to trim reasoning and enhance test-time scaling, explicitly tailored for production-level deployment. Our method employs a lightweight, pretrained, instruction-tuned verifier to detect and truncate redundant intermediate thoughts of LRMs without any LRM or verifier fine-tuning. We present both the core algorithm and asynchronous online system engineered for high-throughput industrial applications. Empirical evaluations on Ascend NPUs and vLLM show that our framework delivers substantial gains in inference efficiency under large-batch workloads. In particular, on the four MATH500, AIME24, AIME25, and GPQA benchmarks, the reasoning runtime of Pangu Pro MoE, Pangu-R-38B, QwQ-32B, and DeepSeek-R1-Distill-Qwen-32B is improved by up to 70% with negligible impact on accuracy.
Abstract（参考訳）: 大規模推論モデル(LRM)は、拡張されたチェーン・オブ・ソート(CoT)推論を利用して複雑な数学的、論理的、およびコーディングタスクに取り組む際、例外的な能力を示す。トークンレベルの明示的な探索によるCoTの延長などのテストタイムスケーリング手法は、LEMの精度境界を押し上げることができるが、大きなデコードオーバーヘッドを発生させる。重要な非効率源は、LRMがしばしば冗長な思考CoTを生成することである。人間の認知的推論プロセスと数値最適化理論から着想を得たTrimRを提案する。TrimRは,動的CoT圧縮のためのバリデーションベースでトレーニング不要で効率的なフレームワークで,実運用レベルの展開に適したテスト時間スケーリングをトリムし,強化する。提案手法では, LRM の冗長な中間的思考を, LRM や検証器の微調整なしに検出・切り離すために, 軽量で事前訓練された命令調整型検証器を用いている。本稿では,高スループット産業アプリケーション用に設計されたコアアルゴリズムと非同期オンラインシステムについて述べる。 Ascend NPUとvLLMに関する実証的な評価は、我々のフレームワークが大規模なバッチワークロード下での推論効率を大幅に向上させることを示している。特に、4つのMATH500、AIME24、AIME25、GPQAベンチマークでは、Pangu Pro MoE、Pangu-R-38B、QwQ-32B、DeepSeek-R1-Distill-Qwen-32Bの推論ランタイムが、精度に無視できない影響で最大70%改善されている。

関連論文リスト

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。 KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文参考訳（メタデータ） (2025-07-11T04:07:10Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models [32.49420948390984]
大規模推論モデル(LRM)は一般に「過大な」問題に悩まされる。本研究では, LRMが不要な中間ステップを回避できるように, シンプルで効率的なパイプラインであるThoughtManiを提案する。 ThoughtManiは安全性のアライメントを平均10%向上させる。
論文参考訳（メタデータ） (2025-04-18T11:07:19Z)
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-10T16:05:19Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。