論文の概要: Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning
- arxiv url: http://arxiv.org/abs/2505.17266v1
- Date: Thu, 22 May 2025 20:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.684324
- Title: Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning
- Title(参考訳): Select2Reason: ロングCoT推論のための効率的な命令チューニングデータ選択
- Authors: Cehao Yang, Xueyuan Lin, Chengjin Xu, Xuhui Jiang, Xiaojun Wu, Honghao Liu, Hui Xiong, Jian Guo,
- Abstract要約: 提案するSelect2Reasonは,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークである。
Select2Reasonは,3つの競合レベルと6つの総合的な数学的ベンチマークで,フルデータチューニングとオープンソースベースラインOpenR1-Qwen-7Bに比較して,性能を向上することを示す。
- 参考スコア(独自算出の注目度): 24.33670771559359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A practical approach to activate long chain-of-thoughts reasoning ability in pre-trained large language models is to perform supervised fine-tuning on instruction datasets synthesized by strong Large Reasoning Models such as DeepSeek-R1, offering a cost-effective alternative to reinforcement learning. However, large-scale instruction sets with more than 100k samples incur significant training overhead, while effective strategies for automatic long-CoT instruction selection still remain unexplored. In this work, we propose Select2Reason, a novel and efficient instruction-tuning data selection framework for long-CoT reasoning. From the perspective of emergence of rethinking behaviors like self-correction and backtracking, we investigate common metrics that may determine the quality of long-CoT reasoning instructions. Select2Reason leverages a quantifier to estimate difficulty of question and jointly incorporates a reasoning trace length-based heuristic through a weighted scheme for ranking to prioritize high-utility examples. Empirical results on OpenR1-Math-220k demonstrate that fine-tuning LLM on only 10% of the data selected by Select2Reason achieves performance competitive with or superior to full-data tuning and open-source baseline OpenR1-Qwen-7B across three competition-level and six comprehensive mathematical benchmarks. Further experiments highlight the scalability in varying data size, efficiency during inference, and its adaptability to other instruction pools with minimal cost.
- Abstract(参考訳): 事前訓練された大規模言語モデルにおける長鎖推論能力を活性化するための実践的なアプローチは、DeepSeek-R1のような強力な大規模推論モデルによって合成された命令データセットの教師付き微調整を行うことであり、強化学習に代わるコスト効率のよい代替手段を提供する。
しかし、100k以上のサンプルを持つ大規模命令セットは、かなりの訓練オーバーヘッドを発生させる一方、自動長CoT命令選択のための効果的な戦略はいまだ探索されていない。
本研究では,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークであるSelect2Reasonを提案する。
自己補正やバックトラッキングといった再考行動の出現の観点から、長いCoT推論命令の質を決定する可能性のある一般的な指標について検討する。
Select2Reasonは、量化器を利用して質問の難易度を推定し、高ユーティリティな例を優先順位付けするための重み付けスキームを通じて、推論トレース長ベースのヒューリスティックを共同で組み込む。
OpenR1-Math-220kの実証的な結果は、Select2Reasonが選択したデータのうち10%しか微調整を行ない、完全なデータチューニングとオープンソースのベースラインであるOpenR1-Qwen-7Bと、競合レベルと6つの総合的な数学的ベンチマークで競合する性能を達成することを示した。
さらに実験では、様々なデータサイズでのスケーラビリティ、推論時の効率、そして最小限のコストで他の命令プールへの適応性を強調している。
関連論文リスト
- LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。