論文の概要: EvoSelect: Data-Efficient LLM Evolution for Targeted Task Adaptation
- arxiv url: http://arxiv.org/abs/2604.26170v1
- Date: Tue, 28 Apr 2026 23:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.195276
- Title: EvoSelect: Data-Efficient LLM Evolution for Targeted Task Adaptation
- Title(参考訳): EvoSelect: ターゲットタスク適応のためのデータ効率の良いLLM進化
- Authors: Ting-Wei Li, Sirui Chen, Jiaru Zou, Yingbing Huang, Tianxin Wei, Jingrui He, Hanghang Tong,
- Abstract要約: 大きな言語モデル(LLM)を目的のタスクに効率的に、効果的に適応させることは、根本的な課題である。
1つの簡単なアプローチは、外部ジェネレータを通じて候補データを合成する反復的な生成訓練ループである。
モデル更新に先立って選択ステップを組み込んだ改良パラダイム,すなわち反復生成選択学習ループを導入する。
- 参考スコア(独自算出の注目度): 79.71802168256542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models (LLMs) to a targeted task efficiently and effectively remains a fundamental challenge. Such adaptation often requires iteratively improving the model toward a targeted task, yet collecting high-quality human-labeled data to support this process is costly and difficult to scale. As a result, synthetic data generation has emerged as a flexible and scalable alternative. One straightforward approach is through an iterative generation-training loop, where candidate data are synthesized through an external generator, the model is updated using these data and the process is repeated over iterations. However, generated samples can be noisy, highly redundant, or even misaligned with the targeted task distribution. Training indiscriminately on such data can dilute useful learning signals and even degrade model performance. To address this, we introduce a refined paradigm, namely an iterative generation-selection-training loop, which incorporates a selection step prior to model updates. Building on this paradigm, we propose EvoSelect, a data-efficient framework to evolve LLM effectively. Given candidate samples produced by the data generator, EvoSelect selects training data by jointly modeling targeted task alignment and diversity. We estimate task relevance through optimal transport with proxy gradient representations, which quantifies how well candidate samples align with the targeted task distribution. To mitigate redundancy, we incorporate a diversification mechanism that promotes coverage of complementary training samples. By interleaving alignment and diversification, EvoSelect enables progressive LLM evolution toward targeted tasks. Extensive experiments on various benchmarks demonstrate that with either weak or strong data generators, EvoSelect consistently improves adaptation efficacy over existing data selection methods.
- Abstract(参考訳): 大きな言語モデル(LLM)を目的のタスクに効率的に、効果的に適応させることは、根本的な課題である。
このような適応は、しばしば、目標とするタスクに向けてモデルを反復的に改善する必要があるが、このプロセスをサポートするために高品質な人間ラベル付きデータを収集することは、コストがかかり、スケールすることが困難である。
その結果、合成データ生成はフレキシブルでスケーラブルな代替手段として登場した。
1つの簡単なアプローチは、外部ジェネレータを通じて候補データが合成され、モデルがこれらのデータを使用して更新され、反復的にプロセスが繰り返される反復生成訓練ループである。
しかし、生成されたサンプルは騒々しく、非常に冗長であり、ターゲットのタスク分布と不一致である。
このようなデータに基づいて無差別にトレーニングすることで、有用な学習信号を減らし、モデル性能を低下させることができる。
そこで本研究では,モデル更新に先立って選択ステップを組み込んだ改良パラダイム,すなわち反復生成-選択-学習ループを導入する。
このパラダイムに基づいて,LLMを効果的に進化させるためのデータ効率のよいフレームワークであるEvoSelectを提案する。
データジェネレータが生成する候補サンプルが与えられた場合、EvoSelectは目標とするタスクアライメントと多様性を併用してトレーニングデータを選択する。
提案手法は,対象のタスク分布に対して,候補となるサンプルがどの程度うまく一致しているかを定量化する。
冗長性を緩和するために,相補的なトレーニングサンプルのカバレッジを促進する多角化機構を組み込んだ。
アライメントと多様化をインターリーブすることで、EvoSelectは目標とするタスクへのプログレッシブLSM進化を可能にする。
様々なベンチマーク実験により、弱いデータジェネレータか強いデータジェネレータで、EvoSelectは既存のデータ選択方法よりも適応効率を一貫して改善することを示した。
関連論文リスト
- DOSE: Data Selection for Multi-Modal LLMs via Off-the-Shelf Models [43.094426671099]
目標データを見たことのない市販の事前訓練モデルを用いて,タスク固有のトレーニングを伴わずに,より大規模で強力なマルチモーダルモデルのトレーニングサンプルを選択することができるかを検討する。
共同品質アライメント分布を構築し, 適応重み付きサンプリングを適用して, 長期の多様性を維持しつつ, 情報的サンプルを選択する。
このアプローチはデータの多様性を高め、DOSEでフィルタされたデータでトレーニングされたモデルが、標準のVQAおよび数学ベンチマークでトレーニングされたデータセットでトレーニングされたモデルと一致するか、あるいは超えるようにする。
論文 参考訳(メタデータ) (2026-04-18T12:41:06Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。