論文の概要: Preserving Diversity in Supervised Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.16673v2
- Date: Sat, 05 Apr 2025 08:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:07:14.531083
- Title: Preserving Diversity in Supervised Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの教師付き微調整における多様性の保存
- Authors: Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Zhi-Quan Luo, Ruoyu Sun,
- Abstract要約: 本稿では,スーパーバイザードファインチューニング(SFT)の新しいゲーム理論式を提案する。
このフレームワークでは、学習プロセスを制御するために補助変数が導入された。
提案したゲーム理論アプローチが,エントロピー正則化による逆KL最小化問題に結びつくことを証明した。
- 参考スコア(独自算出の注目度): 29.02934952075354
- License:
- Abstract: Large Language Models (LLMs) typically rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks, with the Cross Entropy (CE) loss being the de facto choice. However, CE maximizes the likelihood of observed data without accounting for alternative possibilities. As such, CE usually leads to reduced diversity in the model's outputs, which hinders further development that requires sampling to explore better responses. To address this limitation, this paper introduces a new game-theoretic formulation for SFT. In this framework, an auxiliary variable is introduced to regulate the learning process. We prove that the proposed game-theoretic approach connects to the problem of reverse KL minimization with entropy regularization. This regularization prevents over-memorization of training data and promotes output diversity. To implement this framework, we develop GEM, a new training algorithm that is computationally efficient as CE by leveraging some unique properties of LLMs. Empirical studies of pre-trained models from 3B to 70B parameters show that GEM achieves comparable downstream performance to CE while significantly enhancing output diversity. This increased diversity translates to performance gains in test-time compute scaling for chat and code generation tasks. Moreover, we observe that preserving output diversity has the added benefit of mitigating forgetting, as maintaining diverse outputs encourages models to retain pre-trained knowledge throughout the training process.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常、下流タスクを専門とするスーパービジョンファインチューニング (SFT) に依存しており、Cross Entropy (CE) の損失は事実上の選択である。
しかし、CEは別の可能性を考慮することなく観測データの可能性を最大化する。
そのため、CEは通常、モデルの出力の多様性を低下させ、より良い応答を探索するためにサンプリングを必要とするさらなる開発を妨げる。
この制限に対処するために,SFTの新しいゲーム理論の定式化を提案する。
このフレームワークでは、学習プロセスを制御するために補助変数が導入された。
提案したゲーム理論アプローチが,エントロピー正則化による逆KL最小化問題に結びつくことを証明した。
この正規化はトレーニングデータの過剰な記憶を防ぎ、出力の多様性を促進する。
このフレームワークを実装するために,LLMのユニークな特性を活用して,CEとして計算効率の良い新しいトレーニングアルゴリズムであるGEMを開発した。
3Bから70Bパラメータの事前学習モデルの実証研究は、GEMがCEに匹敵するダウンストリーム性能を達成し、出力の多様性を著しく向上することを示している。
この多様性の増大は、チャットおよびコード生成タスクのテスト時間計算スケーリングのパフォーマンス向上につながります。
さらに,出力の多様性を維持することは,学習過程を通じて事前学習した知識をモデルが保持することを奨励するので,忘れを緩和するメリットが加わったことを観察する。
関連論文リスト
- Asymmetric Co-Training for Source-Free Few-Shot Domain Adaptation [5.611768906855499]
SFFSDAシナリオに特化して設計された非対称コトレーニング(ACT)手法を提案する。
ターゲットモデルをトレーニングするために、2段階の最適化プロセスを使用します。
本研究は,少数のラベル付き対象データのみを用いた事前学習モデルの適用により,実用的で信頼性の高い解が得られることを示唆する。
論文 参考訳(メタデータ) (2025-02-20T02:58:45Z) - Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge [15.553942864736989]
言語モデル(LM)は膨大な事実知識を記憶し、様々なタスクやドメインにまたがって強力なパフォーマンスを示す。
低頻度トピックにおけるLMの性能を高めるための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。
本稿では,質問応答タスクにおける低周波エンティティ処理におけるLMのカスタマイズに対するRAGとFTの影響について検討し,評価する。
論文 参考訳(メタデータ) (2024-03-03T08:07:55Z) - Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。
FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。
ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-19T18:00:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Singular Value Penalization and Semantic Data Augmentation for Fully
Test-Time Adaptation [5.891527229524256]
テスト時間適応(FTTA)は、テストフェーズ中にソースドメイン上でトレーニングされたモデルをターゲットドメインに適応させる。
本稿では,その分散を最小化しながら特異値の和を最大化することを提案する。
これにより、モデルがより小さな特異値に焦点を合わせ、より挑戦的なクラス間の差別性を高め、予測結果の多様性を効果的に増大させることができる。
論文 参考訳(メタデータ) (2023-12-10T01:08:56Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Federated Expectation Maximization with heterogeneity mitigation and
variance reduction [0.0]
本稿では、潜在変数モデルに対する期待最大化(EM)アルゴリズムの最初の拡張であるFedEMを紹介する。
通信の複雑さを軽減するため、FedEMは十分なデータ統計を適切に定義した。
その結果,生物多様性モニタリングに欠落した値の計算処理を応用した理論的知見が得られた。
論文 参考訳(メタデータ) (2021-11-03T09:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。