論文の概要: The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training
- arxiv url: http://arxiv.org/abs/2505.19217v1
- Date: Sun, 25 May 2025 16:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.98491
- Title: The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training
- Title(参考訳): オーバーシンカーのDIET:Deficulty-AwarE トレーニングによるToken Calories のカット
- Authors: Weize Chen, Jiarui Yuan, Tailin Jin, Ning Ding, Huimin Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIETを紹介した。
DIETはトークンペナルティ強度と条件付け対象長さを推定タスクの難易度に応じて調整することによりトークン圧縮戦略を動的に適用する。
- 参考スコア(独自算出の注目度): 63.99981166397423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) exhibit impressive reasoning but often over-think, generating excessively long responses that hinder efficiency. We introduce DIET ( DIfficulty-AwarE Training), a framework that systematically cuts these "token calories" by integrating on-the-fly problem difficulty into the reinforcement learning (RL) process. DIET dynamically adapts token compression strategies by modulating token penalty strength and conditioning target lengths on estimated task difficulty, to optimize the performance-efficiency trade-off. We also theoretically analyze the pitfalls of naive reward weighting in group-normalized RL algorithms like GRPO, and propose Advantage Weighting technique, which enables stable and effective implementation of these difficulty-aware objectives. Experimental results demonstrate that DIET significantly reduces token counts while simultaneously improving reasoning performance. Beyond raw token reduction, we show two crucial benefits largely overlooked by prior work: (1) DIET leads to superior inference scaling. By maintaining high per-sample quality with fewer tokens, it enables better scaling performance via majority voting with more samples under fixed computational budgets, an area where other methods falter. (2) DIET enhances the natural positive correlation between response length and problem difficulty, ensuring verbosity is appropriately allocated, unlike many existing compression methods that disrupt this relationship. Our analyses provide a principled and effective framework for developing more efficient, practical, and high-performing LLMs.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIET(DIfficulty-AwarE Training)を紹介した。
DIETは、トークンペナルティ強度と推定タスク難易度に対する条件付け目標長を調整し、トークン圧縮戦略を動的に適用し、性能効率のトレードオフを最適化する。
また,GRPOのような群正規化RLアルゴリズムにおけるナイーブ報酬重み付けの落とし穴を理論的に解析し,これらの難易度を安定かつ効果的に実装できるアドバンテージ重み付け手法を提案する。
実験結果から,DIETは推論性能を向上しつつ,トークン数を大幅に削減することが示された。
生トークンの削減以外にも、これまでの作業で大きく見落とされた2つの重要なメリットが示されています。
トークンが少なくて高いサンプル単位の品質を維持することで、固定された計算予算の下でより多くのサンプルで多数決を行うことで、パフォーマンスを向上することができる。
2)DIETは応答長と問題難易度との自然な正の相関を強化し,この関係を乱す既存の圧縮手法とは異なり,冗長性を適切に確保する。
我々の分析は、より効率的で実用的で高性能なLCMを開発するための、原則的で効果的なフレームワークを提供する。
関連論文リスト
- Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。