論文の概要: LESS: Selecting Influential Data for Targeted Instruction Tuning
- arxiv url: http://arxiv.org/abs/2402.04333v2
- Date: Tue, 20 Feb 2024 02:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:24:32.124296
- Title: LESS: Selecting Influential Data for Targeted Instruction Tuning
- Title(参考訳): LESS: ターゲットのインストラクションチューニングのためのインフルエンシャルデータの選択
- Authors: Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi
Chen
- Abstract要約: 本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
- 参考スコア(独自算出の注目度): 69.50855460630105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning has unlocked powerful capabilities in large language
models (LLMs), effectively using combined datasets to develop generalpurpose
chatbots. However, real-world applications often require a specialized suite of
skills (e.g., reasoning). The challenge lies in identifying the most relevant
data from these extensive datasets to effectively develop specific
capabilities, a setting we frame as targeted instruction tuning. We propose
LESS, an optimizer-aware and practically efficient algorithm to effectively
estimate data influences and perform Low-rank gradiEnt Similarity Search for
instruction data selection. Crucially, LESS adapts existing influence
formulations to work with the Adam optimizer and variable-length instruction
data. LESS first constructs a highly reusable and transferable gradient
datastore with low-dimensional gradient features and then selects examples
based on their similarity to few-shot examples embodying a specific capability.
Experiments show that training on a LESS-selected 5% of the data can often
outperform training on the full dataset across diverse downstream tasks.
Furthermore, the selected data is highly transferable: smaller models can be
leveraged to select useful data for larger models and models from different
families. Our qualitative analysis shows that our method goes beyond surface
form cues to identify data that exemplifies the necessary reasoning skills for
the intended downstream application.
- Abstract(参考訳): 命令チューニングは大規模言語モデル(llm)の強力な機能を解き放ち、汎用チャットボットを開発するために組み合わせデータセットを効果的に利用する。
しかし、現実世界のアプリケーションは、しばしば特別なスキル(推論など)を必要とする。
課題は、これらの広範囲なデータセットから最も関連性の高いデータを特定して、特定の能力を効果的に開発することである。
LESSは,データの影響を効果的に推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムである。
重要なことに、LESSはAdamオプティマイザと可変長命令データを扱うために既存の影響定式化を適用する。
LESSはまず、低次元の勾配特徴を持つ再利用性が高く、転送可能な勾配データストアを構築し、その後、特定の機能を具現化した少数ショットの例と類似性に基づいてサンプルを選択する。
実験の結果、LESSが選択したデータの5%のトレーニングは、さまざまな下流タスクにわたる完全なデータセットでのトレーニングよりも優れていることが示されている。
さらに、選択されたデータは非常に転送性が高く、小さなモデルは、異なるファミリーのより大きなモデルやモデルのために有用なデータを選択するために利用することができる。
定性的分析により,本手法は,下流アプリケーションに必要な推論スキルを示すデータを特定するために,表面形状の手がかりを超えていることがわかった。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。
i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。
人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。