Fugu-MT 論文翻訳(概要): Unified Data Selection for LLM Reasoning

論文の概要: Unified Data Selection for LLM Reasoning

arxiv url: http://arxiv.org/abs/2605.22389v1
Date: Thu, 21 May 2026 12:21:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.248799
Title: Unified Data Selection for LLM Reasoning
Title（参考訳）: LLM推論のための統一データ選択
Authors: Xiaoyuan Li, Yubo Ma, Chengpeng Li, Fengbin Zhu, Yiyao Yu, Keqin Bao, Wenjie Wang, Fuli Feng, Dayiheng Liu,
Abstract要約: 複雑で長いCoT推論のための大規模言語モデル(LLM)のトレーニングは、しばしば大量の高品質な推論データの必要性によってボトルネックとなる。本研究では,各推論サンプルの上位(例えば0.5%)のエントロピートークンのみを和らげることで,推論品質を定量化する学習自由度指標であるHigh-Entropy Sum(HES)を提案する。
参考スコア（独自算出の注目度）: 66.0118347918729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effectively training Large Language Models (LLMs) for complex, long-CoT reasoning is often bottlenecked by the need for massive high-quality reasoning data. Existing methods are either computationally expensive or fail to reliably distinguish high- from low-quality reasoning samples. To address this, we propose High-Entropy Sum (HES), a training-free metric that quantifies reasoning quality by summing only the entropy of the top (e.g., 0.5\%) highest-entropy tokens in each reasoning sample. We validate HES across three mainstream training paradigms: Supervised Fine-tuning (SFT), Rejection Fine-tuning (RFT), and Reinforcement Learning (RL), with extensive results demonstrating its consistent effectiveness and significantly reduced computational overhead. In SFT, training on the top 20\% HES-ranked data matches full-dataset performance, while using the lowest-HES data degrades it. In RFT, our HES-based training approach significantly outperforms baseline methods. In RL, HES-selected successful trajectories enable the model to learn strong reasoning patterns, significantly surpassing other compared methods. Our findings establish HES as a robust, training-free metric that enables a unified, effective, and efficient method for developing advanced reasoning in LLMs.
Abstract（参考訳）: 複雑で長いCoT推論のために、LLM(Large Language Models)を効果的に訓練することは、しばしば大量の高品質な推論データの必要性によってボトルネックとなる。既存の手法は計算コストが高いか、高品質と低品質の推論サンプルを確実に区別できない。これを解決するために,各推論サンプルの上位(eg , 0.5 %)のエントロピートークンのみを和って推論品質を定量化する,トレーニング不要な指標であるHigh-Entropy Sum (HES)を提案する。本研究は,RFT(Revised Fine-tuning),RFT(Rejection Fine-tuning),RL(Reinforcement Learning)の3つの主流トレーニングパラダイムにまたがってHESを検証する。 SFTでは、上位20\%のHESランクデータのトレーニングはフルデータセットのパフォーマンスと一致します。 RFTでは、HESベースのトレーニングアプローチがベースライン手法よりも大幅に優れています。 RLでは、HES選択された成功した軌道は、モデルが強い推論パターンを学習し、他の比較手法を著しく上回る。本研究は,LLMの高度推論のための統一的,効果的,効率的な手法を実現するための,頑健でトレーニング不要な指標としてHESを確立した。

論文の概要: Unified Data Selection for LLM Reasoning

関連論文リスト