論文の概要: DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2510.19669v2
- Date: Thu, 30 Oct 2025 19:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.761035
- Title: DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference
- Title(参考訳): DiffAdapt:Token-Efficient LLM推論のための難易度適応推論
- Authors: Xiang Liu, Xuming Hu, Xiaowen Chu, Eunsol Choi,
- Abstract要約: 最近のLarge Language Models (LLMs) は、目覚ましい問題解決能力を示すが、有用性が不明な長い思考トレースを生成することが多い。
私たちの仕事は効率を向上し、過度に考えずにハイパフォーマンスに到達できるようにすることを目標としています。
簡単な/Normal/Hard推論戦略を選択する軽量フレームワークである textbfDiffAdapt を紹介する。
- 参考スコア(独自算出の注目度): 68.05879215304641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reasoning Large Language Models (LLMs) demonstrate remarkable problem-solving abilities but often generate long thinking traces whose utility is unclear. Our work aims to improve their efficiency, enabling them to reach high performance without overthinking. First, we analyze the entropy of token probabilities in reasoning traces. Across three models, we observe a consistent U-shaped entropy pattern: high entropy on easy problems despite high accuracy, low entropy on problems with medium difficulty, and high entropy on hard problems reflecting uncertainty. Specifically, we notice 22--25\% entropy reduction from easy to medium difficulty regions, suggesting an {overthinking} phenomenon on easy instances. Building on these insights, we introduce \textbf{DiffAdapt}, a lightweight framework that selects Easy/Normal/Hard inference strategies per question based on their difficulty and reasoning trace entropy. Each inference strategy consists of a fixed prompt, temperature and maximum token length. In contrast to existing efficiency optimization methods, our approach does not fine-tune base LLM but a small probe that classifies LLM's final hidden state, allowing inexpensive adaptation. We comprehensively evaluate our method on five models and eight benchmarks. Our method achieves comparable or improved accuracy while reducing token usage by up to 22.4\%, establishing a practical path toward compute-efficient reasoning.
- Abstract(参考訳): 最近のLarge Language Models (LLMs) は、目覚ましい問題解決能力を示すが、有用性が不明な長い思考トレースを生成することが多い。
私たちの仕事は効率を向上し、過度に考えずにハイパフォーマンスに到達できるようにすることを目標としています。
まず、トレースの推論におけるトークン確率のエントロピーを分析する。
3つのモデルにまたがって、一貫したU字型エントロピーパターンを観察する:高い精度にもかかわらず簡単な問題に対する高いエントロピー、中難問題に対する低いエントロピー、不確かさを反映するハード問題に対する高いエントロピー。
具体的には,22-25\%のエントロピーが困難領域から中程度の領域に減少していることに気付き,容易なインスタンスに対する「過度な」現象が示唆された。
これらの知見に基づいて、簡単な/Normal/Hard推論戦略を選択する軽量フレームワークである‘textbf{DiffAdapt}を、その難しさとトレースエントロピーの推論に基づいて導入する。
各推論戦略は、固定プロンプト、温度、最大トークン長からなる。
従来の効率最適化手法とは対照的に,本手法は微調整ベースLLMではなく,LLMの最終隠蔽状態を分類し,安価な適応を可能にする小型プローブである。
提案手法を5つのモデルと8つのベンチマークで総合的に評価した。
提案手法は,トークン使用率を最大22.4\%削減し,計算効率の高い推論への実践的経路を確立しながら,同等あるいは改善された精度を実現する。
関連論文リスト
- ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Probing the Difficulty Perception Mechanism of Large Language Models [31.945071671041465]
本研究では,大言語モデルが内部表現における問題難易度を暗黙的にエンコードするかどうかを考察する。
最終変圧器層の特定の注意点を見つける。
LLMを自動困難アノテータとして使用するための実用的サポートを提供する実験。
論文 参考訳(メタデータ) (2025-10-07T14:24:32Z) - Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。