論文の概要: TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL
- arxiv url: http://arxiv.org/abs/2603.17449v1
- Date: Wed, 18 Mar 2026 07:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.572007
- Title: TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL
- Title(参考訳): TRiMS: RLによる効率的な推論のための最小長実時間追跡
- Authors: Tingcheng Bian, Jinchang Luo, Mingquan Cheng, Jinyu Zhang, Xiaoling Xia, Ni Li, Yan Tao, Haiwei Wang,
- Abstract要約: 我々は,Token当たりのインテリジェンスを最大化するために,理論計量 MSL-Minimal Sufficient Length を導入する。
TRiMSは、すべてのベンチマークで小さな精度で80%以上のCoTトークンの削減を実現している。
- 参考スコア(独自算出の注目度): 8.709290296692197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models achieve breakthroughs in complex reasoning via long chain-of-thought sequences. However, this often leads to severe reasoning inflation, causing substantial computational redundancy. To maximize Intelligence per Token, we introduce a theoretical metric, MSL-Minimal Sufficient Length. MSL rigorously characterizes the shortest reasoning length that preserves answer correctness. We provide a recursive definition based on independently sampled sequences and prove the existence of its limit, establishing the first measurable lower bound for reasoning-chain compression. Building on an analysis of mainstream CoT compression strategies, we identify key structural factors enabling a model to approach MSL. Based on these insights, we propose TRiMS which employs the GRPO algorithm in conjunction with MSL-based estimation during training, while mitigating instabilities during the training process through dynamic batch aggregation and advantage computation using batch-level standard deviation. TRiMS achieves over 80% CoT token reduction with a minor accuracy boost across all benchmarks.
- Abstract(参考訳): 大規模言語モデルは、長い連鎖列を通して複雑な推論においてブレークスルーを達成する。
しかし、これはしばしば深刻な推論インフレーションを引き起こし、かなりの計算冗長性を引き起こす。
Token当たりのインテリジェンスを最大化するために、理論計量 MSL-Minimal Sufficient Length を導入する。
MSLは、答えの正しさを保存する最も短い推論長を厳格に特徴付けている。
我々は、独立にサンプリングされたシーケンスに基づいて再帰的定義を提供し、その極限の存在を証明し、推論チェーン圧縮のための最初の測定可能な下限を確立する。
主流のCoT圧縮戦略の解析に基づいて,モデルがMSLに近づくことを可能にする重要な構造因子を同定する。
これらの知見に基づいて, GRPOアルゴリズムをトレーニング中のMSLに基づく推定と併用し, 動的バッチアグリゲーションとバッチレベルの標準偏差を用いた計算によるトレーニング過程における不安定性を緩和するTRiMSを提案する。
TRiMSは、すべてのベンチマークで小さな精度で80%以上のCoTトークンの削減を実現している。
関連論文リスト
- Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。