論文の概要: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
- arxiv url: http://arxiv.org/abs/2410.05248v2
- Date: Sun, 16 Feb 2025 01:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:30.042733
- Title: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
- Title(参考訳): SFTMix:Mixup Recipeを使った言語モデルのインストラクションチューニング
- Authors: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao,
- Abstract要約: 大規模言語モデル (LLM) は命令チューニングを行い、命令-応答ペアをNext-token Prediction (NTP) を用いて訓練する。
命令チューニングを改善する努力は、しばしば高品質な教師付き微調整(SFT)データセットに焦点を当てる。
SFTMix は,従来の NTP パラダイムを超越した LLM 命令のチューニングを行う,Mix ベースの新しいレシピである。
- 参考スコア(独自算出の注目度): 30.03925858123481
- License:
- Abstract: To acquire instruction-following capabilities, large language models (LLMs) undergo instruction tuning, where they are trained on instruction-response pairs using next-token prediction (NTP). Efforts to improve instruction tuning often focus on higher-quality supervised fine-tuning (SFT) datasets, typically requiring data filtering with proprietary LLMs or human annotation. In this paper, we take a different approach by proposing SFTMix, a novel Mixup-based recipe that elevates LLM instruction tuning beyond the conventional NTP paradigm, without relying on well-curated datasets. Observing that LLMs exhibit uneven confidence across the semantic representation space, we argue that examples with different confidence levels should play distinct roles in instruction tuning--confident data is prone to overfitting, while unconfident data is harder to generalize. Based on this insight, SFTMix leverages training dynamics to identify examples with varying confidence levels, interpolates them to bridge the confidence gap, and applies a Mixup-based regularization to support learning on these additional, interpolated examples. By propagating supervision signals across confidence regions and encouraging linear behavior between them, SFTMix mitigates overfitting in confident examples while enhancing generalization in unconfident ones. We demonstrate the effectiveness of SFTMix in both instruction-following and healthcare-specific SFT tasks, with consistent improvements across LLM families and SFT datasets of varying sizes and qualities. Extensive analyses across six directions highlight SFTMix's compatibility with data selection, adaptability to compute-constrained scenarios, and scalability to broader applications.
- Abstract(参考訳): 命令追従能力を得るために、大規模言語モデル(LLM)は命令追従訓練を行い、命令追従ペアをNext-token Prediction (NTP) を用いて訓練する。
命令チューニングを改善する努力は、しばしば高品質な教師付き微調整(SFT)データセットに焦点を合わせ、通常、プロプライエタリなLLMや人間のアノテーションによるデータフィルタリングを必要とする。
本稿では,従来の NTP パラダイムを超越した LLM 命令チューニングを実現する新手法である SFTMix を提案する。
LLMが意味表現空間全体にわたって不均一な信頼を示すのを観察すると、信頼度が異なる例は命令のチューニングにおいて異なる役割を果たすべきであり、信頼度の高いデータは過度に適合しがちであり、信頼度の低いデータは一般化が困難である。
この知見に基づいて、SFTMixはトレーニングダイナミクスを活用して、様々な信頼レベルを持つサンプルを特定し、それらを補間して信頼ギャップを埋め、これら追加の補間された例の学習を支援するためにMixupベースの正規化を適用する。
信頼領域をまたいだ監視信号の伝播とそれらの間の線形行動の促進により、SFTMixは信頼できない領域の一般化を高めながら、自信のある例に過剰な適合を緩和する。
本研究では, SFTMix の有効性を, LLM ファミリーと SFT データセットに一貫した改良を加えながら, 指導追従タスクと医療固有の SFT タスクの両方において示す。
6方向にわたる大規模な分析では、データ選択との互換性、計算制約のあるシナリオへの適応性、より広範なアプリケーションへのスケーラビリティが強調されている。
関連論文リスト
- Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。
ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。
プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文 参考訳(メタデータ) (2023-02-18T13:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。