Fugu-MT 論文翻訳(概要): SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

論文の概要: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

arxiv url: http://arxiv.org/abs/2410.05248v1
Date: Mon, 7 Oct 2024 17:52:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 20:07:08.298453
Title: SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
Title（参考訳）: SFTMix:Mixup Recipeを使った言語モデルのインストラクションチューニング
Authors: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao,
Abstract要約: 従来のNTPパラダイムを超えて,命令チューニング性能を高める新しいレシピであるSFTMixを提案する。トレーニング力学に基づいて、異なる信頼度を持つ例は、指導訓練過程において異なる役割を演じるべきであると論じる。このアプローチにより、SFTMixは、幅広いインストラクションフォローとヘルスケアドメイン固有のSFTタスクにおいて、NTPを大幅に上回ることができる。
参考スコア（独自算出の注目度）: 30.03925858123481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To induce desired behaviors in large language models (LLMs) for interaction-driven tasks, the instruction-tuning stage typically trains LLMs on instruction-response pairs using the next-token prediction (NTP) loss. Previous work aiming to improve instruction-tuning performance often emphasizes the need for higher-quality supervised fine-tuning (SFT) datasets, which typically involves expensive data filtering with proprietary LLMs or labor-intensive data generation by human annotators. However, these approaches do not fully leverage the datasets' intrinsic properties, resulting in high computational and labor costs, thereby limiting scalability and performance gains. In this paper, we propose SFTMix, a novel recipe that elevates instruction-tuning performance beyond the conventional NTP paradigm, without the need for well-curated datasets. Observing that LLMs exhibit uneven confidence across the semantic representation space, we argue that examples with different confidence levels should play distinct roles during the instruction-tuning process. Based on this insight, SFTMix leverages training dynamics to identify examples with varying confidence levels, then applies a Mixup-based regularization to mitigate overfitting on confident examples while propagating supervision signals to improve learning on relatively unconfident ones. This approach enables SFTMix to significantly outperform NTP across a wide range of instruction-following and healthcare domain-specific SFT tasks, demonstrating its adaptability to diverse LLM families and scalability to datasets of any size. Comprehensive ablation studies further verify the robustness of SFTMix's design choices, underscoring its versatility in consistently enhancing performance across different LLMs and datasets in broader natural language processing applications.
Abstract（参考訳）: 対話駆動タスクのための大規模言語モデル(LLM)において望ましい振る舞いを誘導するために、命令チューニング段階は、通常、次のトーケン予測(NTP)損失を用いて命令応答ペア上でLSMを訓練する。命令チューニングのパフォーマンス向上を目的としたこれまでの作業は、通常、プロプライエタリなLLMによる高価なデータフィルタリングや、人間のアノテータによる労働集約データ生成を含む、高品質な教師付き微調整(SFT)データセットの必要性を強調していた。しかし、これらの手法はデータセットの固有の特性を完全に活用していないため、計算と労力のコストが高くなり、スケーラビリティと性能の向上が制限される。本稿では,従来の NTP パラダイムを超えて命令チューニング性能を高める新しいレシピである SFTMix を提案する。 LLMが意味表現空間全体にわたって不均一な信頼を示すのを見て、異なる信頼度を持つ例は、命令調整過程において異なる役割を担わなければならないと論じる。この知見に基づいて、SFTMixはトレーニングのダイナミクスを活用して、様々な信頼性レベルを持つサンプルを識別し、その後、Mixupベースの正規化を適用して、信頼性の高いサンプルに過度な適合を緩和するとともに、監督シグナルを伝播させ、比較的信頼できないものの学習を改善する。このアプローチにより、SFTMixは、幅広い命令フォローと医療ドメイン固有のSFTタスクでNTPを大幅に上回り、多様なLLMファミリーへの適応性と、任意のサイズのデータセットへのスケーラビリティを実証することができる。包括的アブレーション研究はSFTMixの設計選択の堅牢性をさらに検証し、より広範な自然言語処理アプリケーションにおいて、異なるLLMとデータセットをまたいだパフォーマンスを一貫して向上する汎用性を強調している。

関連論文リスト

Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文参考訳（メタデータ） (2025-04-13T07:49:08Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。 PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文参考訳（メタデータ） (2024-12-17T12:49:14Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。 Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文参考訳（メタデータ） (2023-12-31T21:18:16Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文参考訳（メタデータ） (2023-05-22T21:39:38Z)
RelationMatch: Matching In-batch Relationships for Semi-supervised Learning [11.423755495373907]
半教師付き学習は、少ないラベル付きデータと豊富なラベル付きデータを活用するための重要なアプローチとして登場した。本稿では, 行列クロスエントロピー(MCE)損失関数を用いて, バッチ内でのリレーショナル一貫性を明示的に強化する新しいSSLフレームワークであるRelationMatchを提案する。
論文参考訳（メタデータ） (2023-05-17T17:37:48Z)
An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文参考訳（メタデータ） (2023-02-18T13:25:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。