論文の概要: Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity
- arxiv url: http://arxiv.org/abs/2408.16673v1
- Date: Thu, 29 Aug 2024 16:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:02:54.712657
- Title: Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity
- Title(参考訳): LLMの微調整におけるエントロピー分布マッチング:オーバーフィッティングの低減と多様性の向上
- Authors: Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo,
- Abstract要約: クロスエントロピー(CE)損失はスーパーバイザードファインチューニング(SFT)におけるデファクト選択である
本稿では,最大エントロピー原理を導入することで,これらの問題に対処することを目的とする。
我々は,逆Kulback-Leibler分散最小化を解くGEMと呼ばれる新しい分布マッチング法を開発した。
- 参考スコア(独自算出の注目度): 29.029349520753538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks. Cross Entropy (CE) loss is the de facto choice in SFT, but it often leads to overfitting and limited output diversity due to its aggressive updates to the data distribution. This paper aim to address these issues by introducing the maximum entropy principle, which favors models with flatter distributions that still effectively capture the data. Specifically, we develop a new distribution matching method called GEM, which solves reverse Kullback-Leibler divergence minimization with an entropy regularizer. For the SFT of Llama-3-8B models, GEM outperforms CE in several aspects. First, when applied to the UltraFeedback dataset to develop general instruction-following abilities, GEM exhibits reduced overfitting, evidenced by lower perplexity and better performance on the IFEval benchmark. Furthermore, GEM enhances output diversity, leading to performance gains of up to 7 points on math reasoning and code generation tasks using best-of-n sampling, even without domain-specific data. Second, when fine-tuning with domain-specific datasets for math reasoning and code generation, GEM also shows less overfitting and improvements of up to 10 points compared with CE.
- Abstract(参考訳): 大規模な言語モデルは、下流タスクを専門とするSupervised Fine-Tuning (SFT) に依存している。
クロスエントロピー(CE)損失は、SFTにおいて事実上の選択であるが、データ分散に対する積極的な更新のため、過度に適合し、出力の多様性が制限される。
本稿では,データを効果的に捕捉する平らな分布を持つモデルに有利な最大エントロピー原理を導入することで,これらの問題に対処することを目的とする。
具体的には,エントロピー正規化器を用いた逆Kulback-Leibler分散最小化を解くGEMと呼ばれる新しい分布マッチング法を開発した。
Llama-3-8BモデルのSFTでは、GEMはCEよりいくつかの面で優れている。
まず、UltraFeedbackデータセットを適用して一般的な命令フォロー機能を開発すると、GEMは過度なオーバーフィッティングを減らし、低いパープレキシティとIFEvalベンチマークのパフォーマンスの向上を証明した。
さらに、GEMは出力の多様性を高め、ドメイン固有のデータなしでもベスト・オブ・nサンプリングを用いた算術推論やコード生成タスクで最大7ポイントの性能向上をもたらす。
第二に、数学推論とコード生成のためのドメイン固有のデータセットを微調整する場合、GEMはCEと比較して過度な適合や最大10ポイントの改善も示している。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:29:28Z) - Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。
FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。
ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-19T18:00:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Singular Value Penalization and Semantic Data Augmentation for Fully
Test-Time Adaptation [5.891527229524256]
テスト時間適応(FTTA)は、テストフェーズ中にソースドメイン上でトレーニングされたモデルをターゲットドメインに適応させる。
本稿では,その分散を最小化しながら特異値の和を最大化することを提案する。
これにより、モデルがより小さな特異値に焦点を合わせ、より挑戦的なクラス間の差別性を高め、予測結果の多様性を効果的に増大させることができる。
論文 参考訳(メタデータ) (2023-12-10T01:08:56Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Federated Expectation Maximization with heterogeneity mitigation and
variance reduction [0.0]
本稿では、潜在変数モデルに対する期待最大化(EM)アルゴリズムの最初の拡張であるFedEMを紹介する。
通信の複雑さを軽減するため、FedEMは十分なデータ統計を適切に定義した。
その結果,生物多様性モニタリングに欠落した値の計算処理を応用した理論的知見が得られた。
論文 参考訳(メタデータ) (2021-11-03T09:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。