論文の概要: T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.01317v1
- Date: Mon, 02 Jun 2025 04:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.033525
- Title: T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning
- Title(参考訳): T-SHIRT:インストラクションチューニングのためのToken-Selective Hierarchical Data Selection
- Authors: Yanjun Fu, Faisal Hamman, Sanghamitra Dutta,
- Abstract要約: Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT)は、新しいデータ選択フレームワークである。
我々は、キュレートされたデータセットでチューニングされたモデルが、大規模データセット全体においてトレーニングされたモデルよりも優れていることを実証した。
- 参考スコア(独自算出の注目度): 5.963754140027611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is essential for Large Language Models (LLMs) to effectively follow user instructions. To improve training efficiency and reduce data redundancy, recent works use LLM-based scoring functions, e.g., Instruction-Following Difficulty (IFD), to select high-quality instruction-tuning data with scores above a threshold. While these data selection methods often lead to models that can match or even exceed the performance of models trained on the full datasets, we identify two key limitations: (i) they assess quality at the sample level, ignoring token-level informativeness; and (ii) they overlook the robustness of the scoring method, often selecting a sample due to superficial lexical features instead of its true quality. In this work, we propose Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT), a novel data selection framework that introduces a new scoring method to include only informative tokens in quality evaluation and also promotes robust and reliable samples whose neighbors also show high quality with less local inconsistencies. We demonstrate that models instruction-tuned on a curated dataset (only 5% of the original size) using T-SHIRT can outperform those trained on the entire large-scale dataset by up to 5.48 points on average across eight benchmarks. Across various LLMs and training set scales, our method consistently surpasses existing state-of-the-art data selection techniques, while also remaining both cost-effective and highly efficient. For instance, by using GPT-2 for score computation, we are able to process a dataset of 52k samples using 40 minutes on a single GPU.
- Abstract(参考訳): LLM(Large Language Models)は、ユーザ命令を効果的に追従するためには、命令チューニングが不可欠である。
トレーニング効率の向上とデータの冗長性の低減のために,最近の研究では,LLMに基づくスコアリング機能であるIFD(Instruction-Following Difficulty)を用いて,しきい値以上のスコアで高品質な命令チューニングデータを選択する。
これらのデータ選択方法は、フルデータセットでトレーニングされたモデルのパフォーマンスにマッチしたり、超えたりできるモデルにつながることが多いが、主な制限は2つである。
一 トークンレベルの通知を無視して、サンプルレベルの品質を評価すること。
(二)スコアリング手法の頑健さを見落とし、真の品質ではなく表面の語彙的特徴からサンプルを選択することも多い。
本研究では,T-SHIRT(Token-Selective HIeRarchical Data Selection for Instruction Tuning)を提案する。このフレームワークは,品質評価に情報トークンのみを含む新たなスコアリング手法を導入し,近隣住民が局所的不整合を少なくして高品質で信頼性の高いサンプルを作成する。
我々は、T-SHIRTを使用して、キュレートされたデータセット(元のサイズのわずか5%)でチューニングされたモデルが、8つのベンチマークで平均5.48ポイントまで大規模データセットでトレーニングされたモデルより優れていることを実証した。
様々なLLMとトレーニングセットのスケールにおいて,提案手法はコスト効率と高効率性を保ちながら,既存の最先端データ選択手法を一貫して超越している。
例えば、スコア計算にGPT-2を使用することで、1つのGPUで40分で52kサンプルのデータセットを処理できる。
関連論文リスト
- LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。
我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文 参考訳(メタデータ) (2025-05-08T15:17:37Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。
これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。
Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-12T04:28:14Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Language Model-Driven Data Pruning Enables Efficient Active Learning [6.816044132563518]
我々は、未ラベルデータプルーニング戦略であるActivePruneを導入し、未ラベルデータプールをプルークする。
ラベルのないプールの多様性を高めるために,新しいパープレキシティ再重み付け法を提案する。
翻訳、感情分析、トピック分類、要約タスクの実験は、ActivePruneが既存のデータプルーニング方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-05T19:46:11Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。