論文の概要: Efficiently Estimating Data Efficiency for Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2512.24991v1
- Date: Wed, 31 Dec 2025 17:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.725646
- Title: Efficiently Estimating Data Efficiency for Language Model Fine-tuning
- Title(参考訳): 言語モデルファインチューニングのための効率的なデータ効率推定
- Authors: Gyung Hyun Je, Colin Raffel,
- Abstract要約: 大規模言語モデル(LLM)は、多くのダウンストリームタスクにおいて、合理的なゼロショット機能を示す。
望まれるパフォーマンスのレベルを達成するために必要な微調整例の数は、しばしば不明である。
これは、インクリメンタルアノテーションを必要とせずにタスクのデータ効率を予測するメソッドの必要性を動機付けている。
- 参考スコア(独自算出の注目度): 25.40444080279801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) demonstrate reasonable zero-shot capability across many downstream tasks, fine-tuning is a common practice to improve their performance. However, a task's data efficiency--i.e., the number of fine-tuning examples needed to achieve a desired level of performance--is often unknown, resulting in costly cycles of incremental annotation and retraining. Indeed, we demonstrate across a curated set of 30 specialized tasks that performant LLMs may struggle zero-shot but can attain stronger performance after fine-tuning. This motivates the need for methods to predict a task's data efficiency without requiring incremental annotation. After introducing a concrete metric that quantifies a task's data efficiency, we propose using the gradient cosine similarity of low-confidence examples to predict data efficiency based on a small number of labeled samples. We validate our approach on a diverse set of tasks with varying data efficiencies, attaining 8.6% error in overall data efficiency prediction and typically eliminating hundreds of unnecessary annotations on each task. Our experiment results and implementation code are available on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのダウンストリームタスクで適切なゼロショット機能を示すが、微調整はパフォーマンスを改善するための一般的なプラクティスである。
しかし、タスクのデータ効率、すなわち、望まれるパフォーマンスのレベルを達成するのに必要な微調整のサンプルの数は、しばしば不明であり、インクリメンタルなアノテーションと再トレーニングのコストがかかる。
実のところ、30の特別タスクからなるキュレートされたセットにおいて、性能の高いLCMはゼロショットに苦しむが、微調整後により優れたパフォーマンスが得られることを実証する。
これは、インクリメンタルアノテーションを必要とせずにタスクのデータ効率を予測するメソッドの必要性を動機付けている。
タスクのデータ効率を定量化する具体的な指標を導入した後、少数のラベル付きサンプルに基づいてデータ効率を予測するために、低信頼例の勾配コサイン類似性を用いて提案する。
我々は,データ効率の異なるタスクセットに対するアプローチの検証を行い,データ効率の予測におけるエラーの8.6%を達成し,典型的には各タスクに対する数百の不要なアノテーションを排除した。
実験結果と実装コードはGitHubで公開されている。
関連論文リスト
- Error-driven Data-efficient Large Multimodal Model Tuning [35.20400815089843]
大規模マルチモーダルモデル (LMM) は、多くの学術ベンチマークで顕著な性能を示している。
本稿では,新しいタスクにジェネリックLMMを効率よく適応することを目的とした,エラー駆動型データ効率チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:07:11Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。