論文の概要: A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)
- arxiv url: http://arxiv.org/abs/2602.14696v1
- Date: Mon, 16 Feb 2026 12:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.401944
- Title: A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)
- Title(参考訳): 目標とする教科選択の批判的考察:何が重要なのか(そしてそうでないのか)を遠ざける
- Authors: Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis,
- Abstract要約: インストラクションの微調整では、ターゲットタスクから小さなクエリセットを使用して、大きな候補プールから命令トレーニングデータのサブセットを選択する。
関心が高まりつつも、対象とする命令の選択に関する文献は断片化され、不透明なままである。
本研究では,データ表現と選択アルゴリズムという2つの中核成分を分離し,体系的に分析することで,この景観に明瞭さをもたらすことを目的とする。
- 参考スコア(独自算出の注目度): 14.070675074621043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction fine-tuning of large language models (LLMs) often involves selecting a subset of instruction training data from a large candidate pool, using a small query set from the target task. Despite growing interest, the literature on targeted instruction selection remains fragmented and opaque: methods vary widely in selection budgets, often omit zero-shot baselines, and frequently entangle the contributions of key components. As a result, practitioners lack actionable guidance on selecting instructions for their target tasks. In this work, we aim to bring clarity to this landscape by disentangling and systematically analyzing the two core ingredients: data representation and selection algorithms. Our framework enables controlled comparisons across models, tasks, and budgets. We find that only gradient-based data representations choose subsets whose similarity to the query consistently predicts performance across datasets and models. While no single method dominates, gradient-based representations paired with a greedy round-robin selection algorithm tend to perform best on average at low budgets, but these benefits diminish at larger budgets. Finally, we unify several existing selection algorithms as forms of approximate distance minimization between the selected subset and the query set, and support this view with new generalization bounds. More broadly, our findings provide critical insights and a foundation for more principled data selection in LLM fine-tuning. The code is available at https://github.com/dcml-lab/targeted-instruction-selection.
- Abstract(参考訳): 大規模言語モデル(LLM)のインストラクション微調整では、ターゲットタスクから小さなクエリセットを使用して、大きな候補プールから命令訓練データのサブセットを選択することが多い。
対象とする命令の選択に関する文献は断片化され、不透明なままであり、メソッドは選択予算によって大きく異なり、ゼロショットベースラインを省略することが多く、キーコンポーネントのコントリビューションを束縛することが多い。
その結果、実践者は目標タスクの指示を選択するための実用的な指導を欠いている。
本研究では,データ表現と選択アルゴリズムという2つの中核成分を分離し,体系的に分析することで,この景観に明瞭さをもたらすことを目的とする。
私たちのフレームワークは、モデル、タスク、予算間での制御された比較を可能にします。
勾配に基づくデータ表現だけが、クエリと類似性のあるサブセットを選択し、データセットやモデル間のパフォーマンスを一貫して予測していることがわかった。
単一の手法が支配的ではないが、グラデーションに基づく表現とグレディなラウンドロビン選択アルゴリズムは、低予算で平均して最高の性能を発揮する傾向にあるが、これらの利点はより大きな予算で減少する。
最後に、選択したサブセットとクエリセット間の近似距離最小化の形式として既存の選択アルゴリズムを統一し、このビューを新しい一般化境界でサポートする。
より広範に、我々の発見は、LLM微調整におけるより原則化されたデータ選択の基礎となる重要な洞察を与えてくれる。
コードはhttps://github.com/dcml-lab/targeted-instruction-selectionで公開されている。
関連論文リスト
- KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning [30.471243464952625]
In-context Learning (ICL) は、大規模言語モデルを新しいデータに適応するための強力なパラダイムとして登場した。
本稿では,ICLにおけるサンプル選択の問題について,情報理論の原則的視点から検討する。
我々は,近似保証付きグリーディアルゴリズムを有効活用する,約部分モジュラーの原理的サロゲート目的を導出する。
論文 参考訳(メタデータ) (2025-09-19T06:50:03Z) - COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning [30.547410996111108]
数発の模倣学習において,COLLAGEはCOLLective Data AGgrEgationの手法である。
Collageは適応的なレイトフュージョン機構を使用して、複数のキューのタスク固有の組み合わせに基づいて、関連するデモの選択をガイドする。
コラージュは最先端の検索とマルチタスク学習の手法を10タスクで5.1%、現実世界では6タスクで16.6%上回っている。
論文 参考訳(メタデータ) (2025-08-02T01:23:09Z) - Disentangling the Roles of Representation and Selection in Data Pruning [6.141776277655227]
我々はデータプルーニングをデータ表現と選択アルゴリズムの2つの重要なコンポーネントに分解する。
我々の理論的および実証的な結果は、表現の重要な役割を浮き彫りにする。
異なる選択アルゴリズムは異なる設定で優れており、どのアルゴリズムも他のアルゴリズムより一貫して優れているわけではない。
論文 参考訳(メタデータ) (2025-07-04T15:25:04Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。