論文の概要: Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction
- arxiv url: http://arxiv.org/abs/2405.13432v1
- Date: Wed, 22 May 2024 08:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:55:07.038914
- Title: Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction
- Title(参考訳): Disperse-Then-Merge:調整税減税による指導訓練の限界を推し進める
- Authors: Tingchen Fu, Deng Cai, Lemao Liu, Shuming Shi, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
- 参考スコア(独自算出の注目度): 75.25114727856861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) on instruction-following corpus is a crucial approach toward the alignment of large language models (LLMs). However, the performance of LLMs on standard knowledge and reasoning benchmarks tends to suffer from deterioration at the latter stage of the SFT process, echoing the phenomenon of alignment tax. Through our pilot study, we put a hypothesis that the data biases are probably one cause behind the phenomenon. To address the issue, we introduce a simple disperse-then-merge framework. To be concrete, we disperse the instruction-following data into portions and train multiple sub-models using different data portions. Then we merge multiple models into a single one via model merging techniques. Despite its simplicity, our framework outperforms various sophisticated methods such as data curation and training regularization on a series of standard knowledge and reasoning benchmarks.
- Abstract(参考訳): 命令追従コーパスの教師付き微調整(SFT)は,大規模言語モデル(LLM)のアライメントに向けた重要なアプローチである。
しかしながら、標準知識および推論ベンチマークにおけるLCMの性能は、SFTプロセス後期の劣化に悩まされがちであり、アライメント税の現象を反映している。
パイロット研究を通じて、データバイアスはおそらくこの現象の背後にある1つの原因である、という仮説を立てました。
この問題に対処するため,簡単な分散統合フレームワークを導入する。
具体的には、命令追従データを部分に分散し、異なるデータ部分を用いて複数のサブモデルを訓練する。
次に、モデルのマージ技術を通じて、複数のモデルをひとつのモデルにマージします。
その単純さにもかかわらず、我々のフレームワークは、一連の標準的な知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
関連論文リスト
- Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning [29.72531930169291]
SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。
様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2024-02-21T10:06:08Z) - Becoming self-instruct: introducing early stopping criteria for minimal
instruct tuning [0.0]
Instruction following Score (IFS, Instruction following Score) は、言語モデルの指示に従う能力を検出するメトリクスである。
利用可能なベースモデルとインストラクタモデルをベンチマークし, 部分文と完全文との整形応答の比率が有効であることを示す。
IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA model。
論文 参考訳(メタデータ) (2023-07-05T09:42:25Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。