Fugu-MT 論文翻訳(概要): SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

論文の概要: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

arxiv url: http://arxiv.org/abs/2410.05248v2
Date: Sun, 16 Feb 2025 01:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.412513
Title: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
Title（参考訳）: SFTMix:Mixup Recipeを使った言語モデルのインストラクションチューニング
Authors: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao,
Abstract要約: 大規模言語モデル (LLM) は命令チューニングを行い、命令-応答ペアをNext-token Prediction (NTP) を用いて訓練する。命令チューニングを改善する努力は、しばしば高品質な教師付き微調整(SFT)データセットに焦点を当てる。 SFTMix は,従来の NTP パラダイムを超越した LLM 命令のチューニングを行う,Mix ベースの新しいレシピである。
参考スコア（独自算出の注目度）: 30.03925858123481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To acquire instruction-following capabilities, large language models (LLMs) undergo instruction tuning, where they are trained on instruction-response pairs using next-token prediction (NTP). Efforts to improve instruction tuning often focus on higher-quality supervised fine-tuning (SFT) datasets, typically requiring data filtering with proprietary LLMs or human annotation. In this paper, we take a different approach by proposing SFTMix, a novel Mixup-based recipe that elevates LLM instruction tuning beyond the conventional NTP paradigm, without relying on well-curated datasets. Observing that LLMs exhibit uneven confidence across the semantic representation space, we argue that examples with different confidence levels should play distinct roles in instruction tuning--confident data is prone to overfitting, while unconfident data is harder to generalize. Based on this insight, SFTMix leverages training dynamics to identify examples with varying confidence levels, interpolates them to bridge the confidence gap, and applies a Mixup-based regularization to support learning on these additional, interpolated examples. By propagating supervision signals across confidence regions and encouraging linear behavior between them, SFTMix mitigates overfitting in confident examples while enhancing generalization in unconfident ones. We demonstrate the effectiveness of SFTMix in both instruction-following and healthcare-specific SFT tasks, with consistent improvements across LLM families and SFT datasets of varying sizes and qualities. Extensive analyses across six directions highlight SFTMix's compatibility with data selection, adaptability to compute-constrained scenarios, and scalability to broader applications.
Abstract（参考訳）: 命令追従能力を得るために、大規模言語モデル(LLM)は命令追従訓練を行い、命令追従ペアをNext-token Prediction (NTP) を用いて訓練する。命令チューニングを改善する努力は、しばしば高品質な教師付き微調整(SFT)データセットに焦点を合わせ、通常、プロプライエタリなLLMや人間のアノテーションによるデータフィルタリングを必要とする。本稿では,従来の NTP パラダイムを超越した LLM 命令チューニングを実現する新手法である SFTMix を提案する。 LLMが意味表現空間全体にわたって不均一な信頼を示すのを観察すると、信頼度が異なる例は命令のチューニングにおいて異なる役割を果たすべきであり、信頼度の高いデータは過度に適合しがちであり、信頼度の低いデータは一般化が困難である。この知見に基づいて、SFTMixはトレーニングダイナミクスを活用して、様々な信頼レベルを持つサンプルを特定し、それらを補間して信頼ギャップを埋め、これら追加の補間された例の学習を支援するためにMixupベースの正規化を適用する。信頼領域をまたいだ監視信号の伝播とそれらの間の線形行動の促進により、SFTMixは信頼できない領域の一般化を高めながら、自信のある例に過剰な適合を緩和する。本研究では, SFTMix の有効性を, LLM ファミリーと SFT データセットに一貫した改良を加えながら, 指導追従タスクと医療固有の SFT タスクの両方において示す。 6方向にわたる大規模な分析では、データ選択との互換性、計算制約のあるシナリオへの適応性、より広範なアプリケーションへのスケーラビリティが強調されている。

関連論文リスト

Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning [13.56631686493347]
訓練後の大規模言語モデル(LLM)は、一貫して複雑な命令に従うのに苦労する可能性がある。本稿では,逐次的に構造化された入力命令を,サブコンテキストを含む複数の並列命令に変換することを提案する。 MISOは、SFTの有効性を高めるために、全体的な命令出力アライメントと個々のサブコンテキストの影響を共同で検討する混合コンテキストパラダイムを導入している。
論文参考訳（メタデータ） (2025-05-17T09:13:47Z)
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文参考訳（メタデータ） (2025-04-13T07:49:08Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。 PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文参考訳（メタデータ） (2024-12-17T12:49:14Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。 Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文参考訳（メタデータ） (2023-12-31T21:18:16Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文参考訳（メタデータ） (2023-05-22T21:39:38Z)
RelationMatch: Matching In-batch Relationships for Semi-supervised Learning [11.423755495373907]
半教師付き学習は、少ないラベル付きデータと豊富なラベル付きデータを活用するための重要なアプローチとして登場した。本稿では, 行列クロスエントロピー(MCE)損失関数を用いて, バッチ内でのリレーショナル一貫性を明示的に強化する新しいSSLフレームワークであるRelationMatchを提案する。
論文参考訳（メタデータ） (2023-05-17T17:37:48Z)
An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文参考訳（メタデータ） (2023-02-18T13:25:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。