論文の概要: MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
- arxiv url: http://arxiv.org/abs/2504.13835v1
- Date: Fri, 18 Apr 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 14:32:19.208075
- Title: MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
- Title(参考訳): MIG:意味空間における情報ゲインの最大化によるインストラクションチューニングのための自動データ選択
- Authors: Yicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen,
- Abstract要約: データ品質と多様性は、効果的な命令チューニングデータセットの構築の鍵となる。
我々は,textbfInformation textbfGain(MIG)を意味空間内で最大化するために,データサンプルを反復的に選択する効率的なサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 12.583633720004118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to \textbf{M}aximize the \textbf{I}nformation \textbf{G}ain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.
- Abstract(参考訳): データ品質と多様性は、効果的な命令チューニングデータセットの構築の鍵となる。
% オープンソースの命令チューニングデータセットが利用可能になるにつれて、大量のデータから高品質で多様なサブセットを自動的に選択することが有利である。
既存手法は通常、インスタンスの品質を優先し、多様性を維持するためにヒューリスティックなルールを使用する。
しかし、コレクション全体の包括的なビューが欠如していることは、しばしば最適以下の結果につながる。
さらに、ヒューリスティックなルールは一般的に埋め込み空間内の距離やクラスタリングに焦点を合わせており、意味空間における複雑な命令の意図を正確に把握することができない。
% このギャップを埋めるため,データセットの情報内容を定量化する統一手法を提案する。
この方法はラベルグラフを構築して意味空間をモデル化し、そのグラフ内の情報の分布に基づいて多様性を定量化する。
さらに,このような測定値に基づいて,データサンプルを<textbf{M}nformation \textbf{I}nformation \textbf{G}ain (MIG) の近似に反復的に選択する効率的なサンプリング手法を提案する。
% のデータセットとベースモデルによる実験により,MIG が常に最先端の手法より優れていることが示された。
特に、MIGによってサンプリングされた5\% Tulu3データで微調整されたモデルは、AlpacaEvalで+5.73\%、Wildbenchで+6.89\%の改善により、完全なデータセットでトレーニングされた公式のSFTモデルに匹敵するパフォーマンスを達成している。
関連論文リスト
- MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Diversity-Oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。
具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。
その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-17T11:00:40Z) - Semi-supervised Fine-tuning for Large Language Models [14.782756931646627]
半教師付き微調整(SemiFT)タスクと,LLMアライメントのためのSemiEvolというフレームワークを導入する。
知識伝播のために、SemiEvolは2段階のアプローチを採用し、ラベル付きデータからラベルなしデータへ知識を伝播する。
知識選択のために、SemiEvolは、高品質な擬応答サンプルを選択する協調学習機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-10-17T16:59:46Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。