論文の概要: Unified Data Selection for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.22389v1
- Date: Thu, 21 May 2026 12:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.248799
- Title: Unified Data Selection for LLM Reasoning
- Title(参考訳): LLM推論のための統一データ選択
- Authors: Xiaoyuan Li, Yubo Ma, Chengpeng Li, Fengbin Zhu, Yiyao Yu, Keqin Bao, Wenjie Wang, Fuli Feng, Dayiheng Liu,
- Abstract要約: 複雑で長いCoT推論のための大規模言語モデル(LLM)のトレーニングは、しばしば大量の高品質な推論データの必要性によってボトルネックとなる。
本研究では,各推論サンプルの上位(例えば0.5%)のエントロピートークンのみを和らげることで,推論品質を定量化する学習自由度指標であるHigh-Entropy Sum(HES)を提案する。
- 参考スコア(独自算出の注目度): 66.0118347918729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively training Large Language Models (LLMs) for complex, long-CoT reasoning is often bottlenecked by the need for massive high-quality reasoning data. Existing methods are either computationally expensive or fail to reliably distinguish high- from low-quality reasoning samples. To address this, we propose High-Entropy Sum (HES), a training-free metric that quantifies reasoning quality by summing only the entropy of the top (e.g., 0.5\%) highest-entropy tokens in each reasoning sample. We validate HES across three mainstream training paradigms: Supervised Fine-tuning (SFT), Rejection Fine-tuning (RFT), and Reinforcement Learning (RL), with extensive results demonstrating its consistent effectiveness and significantly reduced computational overhead. In SFT, training on the top 20\% HES-ranked data matches full-dataset performance, while using the lowest-HES data degrades it. In RFT, our HES-based training approach significantly outperforms baseline methods. In RL, HES-selected successful trajectories enable the model to learn strong reasoning patterns, significantly surpassing other compared methods. Our findings establish HES as a robust, training-free metric that enables a unified, effective, and efficient method for developing advanced reasoning in LLMs.
- Abstract(参考訳): 複雑で長いCoT推論のために、LLM(Large Language Models)を効果的に訓練することは、しばしば大量の高品質な推論データの必要性によってボトルネックとなる。
既存の手法は計算コストが高いか、高品質と低品質の推論サンプルを確実に区別できない。
これを解決するために,各推論サンプルの上位(eg , 0.5 %)のエントロピートークンのみを和って推論品質を定量化する,トレーニング不要な指標であるHigh-Entropy Sum (HES)を提案する。
本研究は,RFT(Revised Fine-tuning),RFT(Rejection Fine-tuning),RL(Reinforcement Learning)の3つの主流トレーニングパラダイムにまたがってHESを検証する。
SFTでは、上位20\%のHESランクデータのトレーニングはフルデータセットのパフォーマンスと一致します。
RFTでは、HESベースのトレーニングアプローチがベースライン手法よりも大幅に優れています。
RLでは、HES選択された成功した軌道は、モデルが強い推論パターンを学習し、他の比較手法を著しく上回る。
本研究は,LLMの高度推論のための統一的,効果的,効率的な手法を実現するための,頑健でトレーニング不要な指標としてHESを確立した。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。