Fugu-MT 論文翻訳(概要): Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity

論文の概要: Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity

arxiv url: http://arxiv.org/abs/2408.16673v1
Date: Thu, 29 Aug 2024 16:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 13:02:54.712657
Title: Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity
Title（参考訳）: LLMの微調整におけるエントロピー分布マッチング:オーバーフィッティングの低減と多様性の向上
Authors: Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo,
Abstract要約: クロスエントロピー(CE)損失はスーパーバイザードファインチューニング(SFT)におけるデファクト選択である本稿では,最大エントロピー原理を導入することで,これらの問題に対処することを目的とする。我々は,逆Kulback-Leibler分散最小化を解くGEMと呼ばれる新しい分布マッチング法を開発した。
参考スコア（独自算出の注目度）: 29.029349520753538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks. Cross Entropy (CE) loss is the de facto choice in SFT, but it often leads to overfitting and limited output diversity due to its aggressive updates to the data distribution. This paper aim to address these issues by introducing the maximum entropy principle, which favors models with flatter distributions that still effectively capture the data. Specifically, we develop a new distribution matching method called GEM, which solves reverse Kullback-Leibler divergence minimization with an entropy regularizer. For the SFT of Llama-3-8B models, GEM outperforms CE in several aspects. First, when applied to the UltraFeedback dataset to develop general instruction-following abilities, GEM exhibits reduced overfitting, evidenced by lower perplexity and better performance on the IFEval benchmark. Furthermore, GEM enhances output diversity, leading to performance gains of up to 7 points on math reasoning and code generation tasks using best-of-n sampling, even without domain-specific data. Second, when fine-tuning with domain-specific datasets for math reasoning and code generation, GEM also shows less overfitting and improvements of up to 10 points compared with CE.
Abstract（参考訳）: 大規模な言語モデルは、下流タスクを専門とするSupervised Fine-Tuning (SFT) に依存している。クロスエントロピー(CE)損失は、SFTにおいて事実上の選択であるが、データ分散に対する積極的な更新のため、過度に適合し、出力の多様性が制限される。本稿では,データを効果的に捕捉する平らな分布を持つモデルに有利な最大エントロピー原理を導入することで,これらの問題に対処することを目的とする。具体的には,エントロピー正規化器を用いた逆Kulback-Leibler分散最小化を解くGEMと呼ばれる新しい分布マッチング法を開発した。 Llama-3-8BモデルのSFTでは、GEMはCEよりいくつかの面で優れている。まず、UltraFeedbackデータセットを適用して一般的な命令フォロー機能を開発すると、GEMは過度なオーバーフィッティングを減らし、低いパープレキシティとIFEvalベンチマークのパフォーマンスの向上を証明した。さらに、GEMは出力の多様性を高め、ドメイン固有のデータなしでもベスト・オブ・nサンプリングを用いた算術推論やコード生成タスクで最大7ポイントの性能向上をもたらす。第二に、数学推論とコード生成のためのドメイン固有のデータセットを微調整する場合、GEMはCEと比較して過度な適合や最大10ポイントの改善も示している。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage [3.7756107931620666]
本稿では,思考の双方向連鎖と報酬機構を統合した新しい学習手法を提案する。この手法は、無形文化財の分野に特化して設計された大きな言語モデルであるICH-Qwenに基づいている。
論文参考訳（メタデータ） (2025-05-13T02:05:25Z)
Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。 SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。提案手法の有効性を評価するため,幅広い実験が実施されている。
論文参考訳（メタデータ） (2025-04-14T15:22:51Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。 DPSに対する新しいベイズ的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-06T09:04:13Z)
EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文参考訳（メタデータ） (2024-07-31T03:29:28Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。本稿では,この課題に初めて挑戦する。
論文参考訳（メタデータ） (2024-06-27T05:25:46Z)
Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文参考訳（メタデータ） (2024-05-20T17:59:21Z)
Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。 FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-12-19T18:00:15Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Singular Value Penalization and Semantic Data Augmentation for Fully Test-Time Adaptation [5.891527229524256]
テスト時間適応(FTTA)は、テストフェーズ中にソースドメイン上でトレーニングされたモデルをターゲットドメインに適応させる。本稿では,その分散を最小化しながら特異値の和を最大化することを提案する。これにより、モデルがより小さな特異値に焦点を合わせ、より挑戦的なクラス間の差別性を高め、予測結果の多様性を効果的に増大させることができる。
論文参考訳（メタデータ） (2023-12-10T01:08:56Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文参考訳（メタデータ） (2023-09-13T08:51:19Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。 FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。 PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文参考訳（メタデータ） (2023-05-01T20:04:46Z)
Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。 CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2023-03-08T17:34:15Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文参考訳（メタデータ） (2021-12-10T20:46:13Z)
Federated Expectation Maximization with heterogeneity mitigation and variance reduction [0.0]
本稿では、潜在変数モデルに対する期待最大化(EM)アルゴリズムの最初の拡張であるFedEMを紹介する。通信の複雑さを軽減するため、FedEMは十分なデータ統計を適切に定義した。その結果,生物多様性モニタリングに欠落した値の計算処理を応用した理論的知見が得られた。
論文参考訳（メタデータ） (2021-11-03T09:14:34Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。