論文の概要: ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning
- arxiv url: http://arxiv.org/abs/2412.00631v1
- Date: Sun, 01 Dec 2024 01:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:31.026549
- Title: ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning
- Title(参考訳): ROSE: LLMタスク特化インストラクションチューニングのための逆向きデータ選択フレームワーク
- Authors: Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu,
- Abstract要約: Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
- 参考スコア(独自算出の注目度): 29.001249598245
- License:
- Abstract: Instruction tuning has underscored the significant potential of large language models (LLMs) in producing more human-controllable and effective outputs in various domains. In this work, we focus on the data selection problem for task-specific instruction tuning of LLMs. Prevailing methods primarily rely on the crafted similarity metrics to select training data that aligns with the test data distribution. The goal is to minimize instruction tuning loss on the test data, ultimately improving performance on the target task. However, it has been widely observed that instruction tuning loss (i.e., cross-entropy loss for next token prediction) in LLMs often fails to exhibit a monotonic relationship with actual task performance. This misalignment undermines the effectiveness of current data selection methods for task-specific instruction tuning. To address this issue, we introduce ROSE, a novel Reward-Oriented inStruction data sElection method which leverages pairwise preference loss as a reward signal to optimize data selection for task-specific instruction tuning. Specifically, ROSE adapts an influence formulation to approximate the influence of training data points relative to a few-shot preference validation set to select the most task-related training data points. Experimental results show that by selecting just 5% of the training data using ROSE, our approach can achieve competitive results compared to fine-tuning with the full training dataset, and it surpasses other state-of-the-art data selection methods for task-specific instruction tuning. Our qualitative analysis further confirms the robust generalizability of our method across multiple benchmark datasets and diverse model architectures.
- Abstract(参考訳): インストラクションチューニングは、様々な領域においてより人間制御可能で効果的なアウトプットを生成する上で、大きな言語モデル(LLM)の有意義な可能性を裏付けている。
本研究では,LLMのタスク固有命令チューニングにおけるデータ選択問題に焦点をあてる。
一般的な方法は、主に、テストデータ分布と整合したトレーニングデータを選択するために、製作された類似度メトリクスに依存します。
目標は、テストデータに対する命令チューニング損失を最小限に抑え、最終的にターゲットタスクのパフォーマンスを改善することである。
しかし、LLMにおける命令チューニングの損失(すなわち次のトークン予測のためのクロスエントロピー損失)は、実際のタスク性能とモノトニックな関係を示さないことが広く知られている。
このミスアライメントは、タスク固有のインストラクションチューニングにおける現在のデータ選択方法の有効性を損なう。
この問題に対処するために、ROSEという、タスク固有の命令チューニングのためのデータ選択を最適化するために、ペアの選好損失を報奨信号として活用する、新しいReward-Oriented InStruction Data sElection法を導入する。
具体的には、ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対して、トレーニングデータポイントの影響を近似するために影響定式化を適用する。
実験結果から,ROSEを用いたトレーニングデータの5%しか選択できないため,本手法はトレーニングデータセットの微調整に比べて競争力があり,タスク固有のトレーニングチューニングのための他の最先端データ選択手法よりも優れていることがわかった。
定性解析により、複数のベンチマークデータセットと多様なモデルアーキテクチャにまたがる手法の堅牢な一般化性をさらに確認する。
関連論文リスト
- TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。
本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。
提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T05:54:17Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Survey on Data Selection for LLM Instruction Tuning [18.94987580516951]
本稿では,データ選択手法の新たな分類法を提案し,最近の進歩を詳細に紹介する。
我々はオープンな課題を強調し、このタスクの新たなフロンティアを提示する。
論文 参考訳(メタデータ) (2024-02-04T13:32:01Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。