Fugu-MT 論文翻訳(概要): Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

論文の概要: Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

arxiv url: http://arxiv.org/abs/2402.13669v1
Date: Wed, 21 Feb 2024 10:06:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 15:53:44.987818
Title: Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning
Title（参考訳）: 言語モデルファインチューニングにおける自己蒸留ブリッジの分布ギャップ
Authors: Zhaorui Yang, Qian Liu, Tianyu Pang, Han Wang, Haozhe Feng, Minfeng Zhu, Wei Chen
Abstract要約: SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
参考スコア（独自算出の注目度）: 31.215916859494605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The surge in Large Language Models (LLMs) has revolutionized natural language processing, but fine-tuning them for specific tasks often encounters challenges in balancing performance and preserving general instruction-following abilities. In this paper, we posit that the distribution gap between task datasets and the LLMs serves as the primary underlying cause. To address the problem, we introduce Self-Distillation Fine-Tuning (SDFT), a novel approach that bridges the distribution gap by guiding fine-tuning with a distilled dataset generated by the model itself to match its original distribution. Experimental results on the Llama-2-chat model across various benchmarks demonstrate that SDFT effectively mitigates catastrophic forgetting while achieving comparable or superior performance on downstream tasks compared to the vanilla fine-tuning. Moreover, SDFT demonstrates the potential to maintain the helpfulness and safety alignment of LLMs. Our code is available at \url{https://github.com/sail-sg/sdft}.
Abstract（参考訳）: 大規模言語モデル(LLM)の急増は自然言語処理に革命をもたらしたが、特定のタスクに対する微調整は、パフォーマンスのバランスと一般的な命令追従能力の維持という課題に直面することが多い。本稿では,タスクデータセットとLCM間の分散ギャップが主な原因であると仮定する。この問題に対処するため,我々は,モデル自身が生成した蒸留データセットに微調整を導くことで,分散ギャップを橋渡しする新しい手法である自己蒸留微調整(sdft)を導入する。各種ベンチマークにおけるLlama-2-chatモデルによる実験結果から,SDFTはバニラ微調整に比べて下流タスクにおいて同等あるいは優れた性能を達成しつつ,破滅的な忘れを効果的に軽減することが示された。さらに、sdftはllmの有用性と安全性アライメントを維持する可能性を示す。私たちのコードは \url{https://github.com/sail-sg/sdft} で利用可能です。

関連論文リスト

Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。 SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文参考訳（メタデータ） (2025-05-29T22:17:43Z)
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning [3.4023074295549014]
Subtask-oriented Reinforced Fine-Tuning (SoRFT) は, LLMの問題解決能力を高めるための新しいトレーニング手法である。 SWE-Bench Verified と SWE-Bench Lite を用いたSORFT訓練モデルの評価を行い,オープンソースモデル間でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2025-02-27T14:19:45Z)
Large Language Diffusion Models [77.02553707673418]
自己回帰モデル(ARM)は、大規模言語モデル(LLM)の基盤として広く見なされている。我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインを上回っています。
論文参考訳（メタデータ） (2025-02-14T08:23:51Z)
Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。 DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文参考訳（メタデータ） (2024-12-17T03:10:47Z)
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。 FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文参考訳（メタデータ） (2024-08-28T06:28:01Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。 LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文参考訳（メタデータ） (2024-06-25T20:11:37Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文参考訳（メタデータ） (2023-08-12T10:33:57Z)
Task-guided Disentangled Tuning for Pretrained Language Models [16.429787408467703]
本稿では,事前学習型言語モデル(PLM)のためのタスク誘導型ディスタングル型チューニング(TDT)を提案する。 TDTは、タスク関連信号を絡み合った表現から切り離すことにより、表現の一般化を強化する。 GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られた。
論文参考訳（メタデータ） (2022-03-22T03:11:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。