論文の概要: ICon: In-Context Contribution for Automatic Data Selection
- arxiv url: http://arxiv.org/abs/2505.05327v1
- Date: Thu, 08 May 2025 15:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.933943
- Title: ICon: In-Context Contribution for Automatic Data Selection
- Title(参考訳): ICon: 自動データ選択のためのインコンテキストコントリビューション
- Authors: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui,
- Abstract要約: In-context Learning for Contribution Measurement (ICon) は、ICL(In-context Learning)の暗黙的な微調整特性を利用して、計算や手動のインジケータを使わずにサンプルのコントリビューションを測定する、勾配のない手法である。
IConは3つのコンポーネントから構成され、ICLを通じて暗黙的な学習の下でのパフォーマンスシフトを評価することで、ハイコントリビューションデータを識別する。
LLaMA3.1-8Bでは、IConが選択したデータの15%でトレーニングされたモデルは、完全なデータセットを5.42%上回り、広く使われている選択方法の最高のパフォーマンスを2.06%上回る。
- 参考スコア(独自算出の注目度): 29.459431336830267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection for instruction tuning is essential for improving the performance of Large Language Models (LLMs) and reducing training cost. However, existing automated selection methods either depend on computationally expensive gradient-based measures or manually designed heuristics, which may fail to fully exploit the intrinsic attributes of data. In this paper, we propose In-context Learning for Contribution Measurement (ICon), a novel gradient-free method that takes advantage of the implicit fine-tuning nature of in-context learning (ICL) to measure sample contribution without gradient computation or manual indicators engineering. ICon offers a computationally efficient alternative to gradient-based methods and reduces human inductive bias inherent in heuristic-based approaches. ICon comprises three components and identifies high-contribution data by assessing performance shifts under implicit learning through ICL. Extensive experiments on three LLMs across 12 benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data outperform full datasets by 5.42% points and exceed the best performance of widely used selection methods by 2.06% points. We further analyze high-contribution samples selected by ICon, which show both diverse tasks and appropriate difficulty levels, rather than just the hardest ones.
- Abstract(参考訳): インストラクションチューニングのためのデータ選択は,大規模言語モデル(LLM)の性能向上とトレーニングコストの削減に不可欠である。
しかし、既存の自動選択法は計算に高価な勾配に基づく測度に依存するか、あるいは手動で設計したヒューリスティックスに依存しており、本質的なデータの属性を完全に活用できない可能性がある。
本稿では,ICL(In-context Learning for Contribution Measurement)を提案する。この手法は,ICL(In-context Learning)の暗黙的な微調整性を利用して,勾配計算や手動インジケータエンジニアリングを使わずにサンプルコントリビューションを計測する手法である。
IConは勾配に基づく手法に代わる計算効率の良い代替手段を提供し、ヒューリスティックなアプローチに固有の人間の誘導バイアスを減らす。
IConは3つのコンポーネントから構成され、ICLを通じて暗黙的な学習の下でのパフォーマンスシフトを評価することで、ハイコントリビューションデータを識別する。
12のベンチマークと5つのペアワイズ評価セットにまたがる3つのLLMに関する大規模な実験は、IConの有効性を示している。
注目すべきなのは、LLaMA3.1-8Bでは、IConが選択したデータの15%でトレーニングされたモデルは、完全なデータセットを5.42%上回り、広く使われている選択方法の最高のパフォーマンスを2.06%上回っていることだ。
さらに,IConが選択した高コントリビューションサンプルを解析し,最も難しいものだけではなく,多様なタスクと適切な難易度の両方を示す。
関連論文リスト
- Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
我々はPRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。