論文の概要: Diversity Measurement and Subset Selection for Instruction Tuning
Datasets
- arxiv url: http://arxiv.org/abs/2402.02318v1
- Date: Sun, 4 Feb 2024 02:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:37:28.421070
- Title: Diversity Measurement and Subset Selection for Instruction Tuning
Datasets
- Title(参考訳): インストラクションチューニングデータセットの多様性測定とサブセット選択
- Authors: Peiqi Wang, Yikang Shen, Zhen Guo, Matthew Stallone, Yoon Kim, Polina
Golland, Rameswar Panda
- Abstract要約: 決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
- 参考スコア(独自算出の注目度): 40.930387018872786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to select data subsets for the fine-tuning of large language models to
more effectively follow instructions. Prior work has emphasized the importance
of diversity in dataset curation but relied on heuristics such as the number of
tasks. In this paper, we use determinantal point processes to capture the
diversity and quality of instruction tuning datasets for subset selection. We
propose to measure dataset diversity with log determinant distance that is the
distance between the dataset of interest and a maximally diverse reference
dataset. Our experiments demonstrate that the proposed diversity measure in the
normalized weight gradient space is correlated with downstream
instruction-following performance. Consequently, it can be used to inform when
data selection is the most helpful and to analyze dataset curation strategies.
We demonstrate the utility of our approach on various instruction tuning
datasets.
- Abstract(参考訳): 我々は、より効率的に命令に従うように、大規模言語モデルの微調整のためのデータサブセットを選択することを目指している。
以前の研究は、データセットのキュレーションにおける多様性の重要性を強調してきたが、タスクの数などのヒューリスティックに頼っていた。
本稿では,サブセット選択のための命令チューニングデータセットの多様性と品質を推定するために,決定点プロセスを用いる。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
本実験は,正規化重量勾配空間におけるダイバーシティ尺度が下流の命令追従性能と相関することを示す。
したがって、データ選択が最も有用なタイミングを知らせたり、データセットのキュレーション戦略を分析するのに使うことができる。
各種指導調律データセットに対するアプローチの有用性を実証する。
関連論文リスト
- The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph [45.51085356985464]
文をn-gramにリンクする二部グラフとしてデータセットを表現する新しい方法であるGraphFilterを導入する。
この表現は文と言語パターンの関係を効果的に捉え、n-gramの多様性を高める文の選択を容易にする。
GraphFilterは、高優先度の文を反復的に選択し、カバーされたn-gramを取り除き、二部グラフを更新し、進化するデータランドスケープを反映するように優先順位を再計算する。
論文 参考訳(メタデータ) (2024-10-16T11:16:34Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Multi-Teacher Multi-Objective Meta-Learning for Zero-Shot Hyperspectral Band Selection [50.30291173608449]
ゼロショットハイパースペクトル帯選択のための新しい多目的メタラーニングネットワーク(M$3$BS)を提案する。
M$3$BSでは、データセットに依存しないベースを生成するために、一般化可能なグラフ畳み込みネットワーク(GCN)を構築している。
取得したメタ知識は、トレーニングや微調整なしに、直接見えないデータセットに転送することができる。
論文 参考訳(メタデータ) (2024-06-12T07:13:31Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。