論文の概要: InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.23006v1
- Date: Fri, 30 Jan 2026 14:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.491265
- Title: InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning
- Title(参考訳): InstructDiff: LLMファインチューニングのための差分エントロピーによるドメイン適応データ選択
- Authors: Junyou Su, He Zhu, Xiao Luo, Liyu Zhang, Hong-Yu Zhou, Yun Chen, Peng Li, Yang Liu, Guanhua Chen,
- Abstract要約: InstructDiffは、ドメイン適応選択基準として微分エントロピーを運用する統合フレームワークである。
InstructDiffは、数学的推論に関する完全なデータトレーニングよりも17%の相対的な改善を達成し、一般的な命令追従の52%を実現している。
- 参考スコア(独自算出の注目度): 35.89674702985539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is fundamental to adapting large language models, yet training on complete datasets incurs prohibitive costs with diminishing returns. Existing data selection methods suffer from severe domain specificity: techniques optimized for general instruction-following fail on reasoning tasks, and vice versa. We observe that measuring entropy differences between base models and minimally instruction-tuned calibrated models reveals a pattern -- samples with the lowest differential entropy consistently yield optimal performance across domains, yet this principle manifests domain-adaptively: reasoning tasks favor entropy increase (cognitive expansion), while general tasks favor entropy decrease (cognitive compression). We introduce InstructDiff, a unified framework that operationalizes differential entropy as a domain-adaptive selection criterion through warmup calibration, bi-directional NLL filtering, and entropy-based ranking. Extensive experiments show that InstructDiff achieves 17\% relative improvement over full data training on mathematical reasoning and 52\% for general instruction-following, outperforming prior baselines while using only 10\% of the data.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大規模な言語モデルに適応するためには基本的なものだが、完全なデータセットのトレーニングは、リターンを減少させることで、禁止的なコストを発生させる。
既存のデータ選択手法は厳しい領域特異性に悩まされており、一般的な命令フォローに最適化された手法は推論タスクで失敗する。
基本モデルと最小命令調整型校正モデルの間のエントロピー差の測定は、最小の微分エントロピーを持つサンプルは、ドメイン間で一貫して最適な性能を示すが、この原理はドメイン適応的に、推論タスクはエントロピー増加(認知的拡大)を、一般的なタスクはエントロピー減少(認知的圧縮)を、というように表す。
InstructDiffは、差分エントロピーを、ウォームアップ校正、双方向NLLフィルタリング、エントロピーに基づくランク付けによって、ドメイン適応選択基準として運用する統合フレームワークである。
大規模な実験により、InstructDiffは、数学的推論に関する完全なデータトレーニングよりも17倍の相対的な改善を達成し、一般的な命令追従に対して52倍の相対的な改善を達成し、データの10倍の精度で事前ベースラインを上回った。
関連論文リスト
- Improving Domain Generalization in Contrastive Learning using Adaptive Temperature Control [6.29137812995328]
コントラスト学習を用いた自己教師付き事前学習は、疎ラベル付きデータから学習するための強力な方法である。
トレーニングからテスト時間へのデータの分散が変化した場合、パフォーマンスは大幅に低下する可能性がある。
本稿では,学習表現の領域不変性を高めるために,ドメインラベルを組み込んだコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2026-01-12T17:32:24Z) - DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。
本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。
データセット全体の70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文 参考訳(メタデータ) (2025-04-21T02:25:03Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ユーザ特定目的の最適化に向けて,事前学習した拡散モデルを適用するための勾配ガイダンスの形式について検討する。
我々は,その最適化理論とアルゴリズム設計を体系的に研究するために,誘導拡散の数学的枠組みを確立する。
論文 参考訳(メタデータ) (2024-04-23T04:51:02Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Domain Generalization by Rejecting Extreme Augmentations [24.321332981669297]
ドメイン外およびドメインの一般化設定では、データ拡張が顕著で堅牢なパフォーマンス向上をもたらすことを示す。
i)標準データ拡張変換の均一サンプリング,(ii)ドメイン外での作業において期待される高いデータ分散を考慮した強度変換,(iii)トレーニングを損なうような極端な変換を拒否する新たな報酬関数を考案する,という簡単なトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-10-10T14:46:22Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。