論文の概要: The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training
- arxiv url: http://arxiv.org/abs/2505.19217v1
- Date: Sun, 25 May 2025 16:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.98491
- Title: The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training
- Title(参考訳): オーバーシンカーのDIET:Deficulty-AwarE トレーニングによるToken Calories のカット
- Authors: Weize Chen, Jiarui Yuan, Tailin Jin, Ning Ding, Huimin Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIETを紹介した。
DIETはトークンペナルティ強度と条件付け対象長さを推定タスクの難易度に応じて調整することによりトークン圧縮戦略を動的に適用する。
- 参考スコア(独自算出の注目度): 63.99981166397423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) exhibit impressive reasoning but often over-think, generating excessively long responses that hinder efficiency. We introduce DIET ( DIfficulty-AwarE Training), a framework that systematically cuts these "token calories" by integrating on-the-fly problem difficulty into the reinforcement learning (RL) process. DIET dynamically adapts token compression strategies by modulating token penalty strength and conditioning target lengths on estimated task difficulty, to optimize the performance-efficiency trade-off. We also theoretically analyze the pitfalls of naive reward weighting in group-normalized RL algorithms like GRPO, and propose Advantage Weighting technique, which enables stable and effective implementation of these difficulty-aware objectives. Experimental results demonstrate that DIET significantly reduces token counts while simultaneously improving reasoning performance. Beyond raw token reduction, we show two crucial benefits largely overlooked by prior work: (1) DIET leads to superior inference scaling. By maintaining high per-sample quality with fewer tokens, it enables better scaling performance via majority voting with more samples under fixed computational budgets, an area where other methods falter. (2) DIET enhances the natural positive correlation between response length and problem difficulty, ensuring verbosity is appropriately allocated, unlike many existing compression methods that disrupt this relationship. Our analyses provide a principled and effective framework for developing more efficient, practical, and high-performing LLMs.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIET(DIfficulty-AwarE Training)を紹介した。
DIETは、トークンペナルティ強度と推定タスク難易度に対する条件付け目標長を調整し、トークン圧縮戦略を動的に適用し、性能効率のトレードオフを最適化する。
また,GRPOのような群正規化RLアルゴリズムにおけるナイーブ報酬重み付けの落とし穴を理論的に解析し,これらの難易度を安定かつ効果的に実装できるアドバンテージ重み付け手法を提案する。
実験結果から,DIETは推論性能を向上しつつ,トークン数を大幅に削減することが示された。
生トークンの削減以外にも、これまでの作業で大きく見落とされた2つの重要なメリットが示されています。
トークンが少なくて高いサンプル単位の品質を維持することで、固定された計算予算の下でより多くのサンプルで多数決を行うことで、パフォーマンスを向上することができる。
2)DIETは応答長と問題難易度との自然な正の相関を強化し,この関係を乱す既存の圧縮手法とは異なり,冗長性を適切に確保する。
我々の分析は、より効率的で実用的で高性能なLCMを開発するための、原則的で効果的なフレームワークを提供する。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning [66.8042627609456]
損失再重み付けは、大きな言語モデル(LLM)を用いた機械学習において大きなメリットを示している。
本稿では,損失再重み付け,すなわち飽和と重要度という2つの異なる目標を同定する。
飽和度と重要度の両方の利点を組み合わせた簡易な再重み付け手法であるSatImpを提案する。
論文 参考訳(メタデータ) (2025-05-17T10:41:22Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Balancing LoRA Performance and Efficiency with Simple Shard Sharing [8.827921242078883]
textbfOptimal textbfShard textbfIntegration in textbfLoRAは、単純なシャード共有機構を通じて、このトレードオフに対処する新しいPEFTアプローチである。
Fossilsは、標準的なLoRAと、その顕著な変種を、モデルパフォーマンスメトリクスと計算効率の両方で大幅に上回っている。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。