論文の概要: The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.15134v1
- Date: Wed, 21 May 2025 05:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.909908
- Title: The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
- Title(参考訳): LLM推論におけるエントロピー最小化の有効性
- Authors: Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng,
- Abstract要約: エントロピー最小化(EM)は、最も確実な出力にさらに確率質量を集中するようにモデルを訓練する。
この単純な目的だけでラベル付きデータなしでは、挑戦的な数学、物理学、コーディングタスクにおいて大きな言語モデルの性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 44.988290766092184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropy minimization (EM) trains the model to concentrate even more probability mass on its most confident outputs. We show that this simple objective alone, without any labeled data, can substantially improve large language models' (LLMs) performance on challenging math, physics, and coding tasks. We explore three approaches: (1) EM-FT minimizes token-level entropy similarly to instruction finetuning, but on unlabeled outputs drawn from the model; (2) EM-RL: reinforcement learning with negative entropy as the only reward to maximize; (3) EM-INF: inference-time logit adjustment to reduce entropy without any training data or parameter updates. On Qwen-7B, EM-RL, without any labeled data, achieves comparable or better performance than strong RL baselines such as GRPO and RLOO that are trained on 60K labeled examples. Furthermore, EM-INF enables Qwen-32B to match or exceed the performance of proprietary models like GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro on the challenging SciCode benchmark, while being 3x more efficient than self-consistency and sequential refinement. Our findings reveal that many pretrained LLMs possess previously underappreciated reasoning capabilities that can be effectively elicited through entropy minimization alone, without any labeled data or even any parameter updates.
- Abstract(参考訳): エントロピー最小化(EM)は、最も確実な出力にさらに確率質量を集中するようにモデルを訓練する。
この単純な目的だけでラベル付きデータなしでは、数学、物理学、コーディングタスクにおいて大きな言語モデル(LLM)の性能を大幅に改善できることを示す。
1)EM-FTは命令微調整と同様のトークンレベルのエントロピーを最小化するが,モデルから抽出したラベルなし出力に対して,(2)EM-RL:最大化唯一の報酬として負エントロピーを用いた強化学習,(3)EM-INF:推論時ロジット調整により,トレーニングデータやパラメータ更新を使わずにエントロピーを最小化する。
Qwen-7Bでは、EM-RLはラベル付きデータなしで、60Kラベル付きサンプルでトレーニングされたGRPOやRLOOのような強力なRLベースラインよりも同等または優れたパフォーマンスを実現している。
さらに、EM-INFにより、Qwen-32Bは、GPT-4o、Claude 3 Opus、Gemini 1.5 Proといったプロプライエタリなモデルのパフォーマンスを、SciCodeベンチマークで比較または超えることができ、自己整合性やシーケンシャルな改善よりも3倍効率がよい。
以上の結果から,事前学習したLSMの多くは,ラベル付きデータやパラメータ更新を使わずに,エントロピーの最小化のみによって効果的に引き起こされるような,未熟な推論能力を持っていることが明らかとなった。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Preserving Diversity in Supervised Fine-Tuning of Large Language Models [29.02934952075354]
本稿では,スーパーバイザードファインチューニング(SFT)の新しいゲーム理論式を提案する。
このフレームワークでは、学習プロセスを制御するために補助変数が導入された。
提案したゲーム理論アプローチが,エントロピー正則化による逆KL最小化問題に結びつくことを証明した。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - PHUDGE: Phi-3 as Scalable Judge [1.7495213911983414]
我々は,SOTAを達成したPhi3モデルについて,フィードバックテスト,フィードバックOOD,MTヒューマン,優先度テストの4つのタスクについて述べる。
GPT4だけでなく、人間のアノテータにも、絶対的および相対的なグルーピングタスクにおいて、非常に強い相関関係を示す。
我々は、体系的なML実験、思慮深いデータ拡張、問題自体の再現によって、より少ないトレーニングデータでも10倍のモデルに打ち勝つことができることを示した。
論文 参考訳(メタデータ) (2024-05-12T18:22:16Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。