論文の概要: T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.01317v1
- Date: Mon, 02 Jun 2025 04:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.033525
- Title: T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning
- Title(参考訳): T-SHIRT:インストラクションチューニングのためのToken-Selective Hierarchical Data Selection
- Authors: Yanjun Fu, Faisal Hamman, Sanghamitra Dutta,
- Abstract要約: Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT)は、新しいデータ選択フレームワークである。
我々は、キュレートされたデータセットでチューニングされたモデルが、大規模データセット全体においてトレーニングされたモデルよりも優れていることを実証した。
- 参考スコア(独自算出の注目度): 5.963754140027611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is essential for Large Language Models (LLMs) to effectively follow user instructions. To improve training efficiency and reduce data redundancy, recent works use LLM-based scoring functions, e.g., Instruction-Following Difficulty (IFD), to select high-quality instruction-tuning data with scores above a threshold. While these data selection methods often lead to models that can match or even exceed the performance of models trained on the full datasets, we identify two key limitations: (i) they assess quality at the sample level, ignoring token-level informativeness; and (ii) they overlook the robustness of the scoring method, often selecting a sample due to superficial lexical features instead of its true quality. In this work, we propose Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT), a novel data selection framework that introduces a new scoring method to include only informative tokens in quality evaluation and also promotes robust and reliable samples whose neighbors also show high quality with less local inconsistencies. We demonstrate that models instruction-tuned on a curated dataset (only 5% of the original size) using T-SHIRT can outperform those trained on the entire large-scale dataset by up to 5.48 points on average across eight benchmarks. Across various LLMs and training set scales, our method consistently surpasses existing state-of-the-art data selection techniques, while also remaining both cost-effective and highly efficient. For instance, by using GPT-2 for score computation, we are able to process a dataset of 52k samples using 40 minutes on a single GPU.
- Abstract(参考訳): LLM(Large Language Models)は、ユーザ命令を効果的に追従するためには、命令チューニングが不可欠である。
トレーニング効率の向上とデータの冗長性の低減のために,最近の研究では,LLMに基づくスコアリング機能であるIFD(Instruction-Following Difficulty)を用いて,しきい値以上のスコアで高品質な命令チューニングデータを選択する。
これらのデータ選択方法は、フルデータセットでトレーニングされたモデルのパフォーマンスにマッチしたり、超えたりできるモデルにつながることが多いが、主な制限は2つである。
一 トークンレベルの通知を無視して、サンプルレベルの品質を評価すること。
(二)スコアリング手法の頑健さを見落とし、真の品質ではなく表面の語彙的特徴からサンプルを選択することも多い。
本研究では,T-SHIRT(Token-Selective HIeRarchical Data Selection for Instruction Tuning)を提案する。このフレームワークは,品質評価に情報トークンのみを含む新たなスコアリング手法を導入し,近隣住民が局所的不整合を少なくして高品質で信頼性の高いサンプルを作成する。
我々は、T-SHIRTを使用して、キュレートされたデータセット(元のサイズのわずか5%)でチューニングされたモデルが、8つのベンチマークで平均5.48ポイントまで大規模データセットでトレーニングされたモデルより優れていることを実証した。
様々なLLMとトレーニングセットのスケールにおいて,提案手法はコスト効率と高効率性を保ちながら,既存の最先端データ選択手法を一貫して超越している。
例えば、スコア計算にGPT-2を使用することで、1つのGPUで40分で52kサンプルのデータセットを処理できる。
関連論文リスト
- RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。
我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文 参考訳(メタデータ) (2025-05-08T15:17:37Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。