Fugu-MT 論文翻訳(概要): Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction

論文の概要: Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction

arxiv url: http://arxiv.org/abs/2405.13432v1
Date: Wed, 22 May 2024 08:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:55:07.038914
Title: Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction
Title（参考訳）: Disperse-Then-Merge:調整税減税による指導訓練の限界を推し進める
Authors: Tingchen Fu, Deng Cai, Lemao Liu, Shuming Shi, Rui Yan,
Abstract要約: 大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
参考スコア（独自算出の注目度）: 75.25114727856861
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised fine-tuning (SFT) on instruction-following corpus is a crucial approach toward the alignment of large language models (LLMs). However, the performance of LLMs on standard knowledge and reasoning benchmarks tends to suffer from deterioration at the latter stage of the SFT process, echoing the phenomenon of alignment tax. Through our pilot study, we put a hypothesis that the data biases are probably one cause behind the phenomenon. To address the issue, we introduce a simple disperse-then-merge framework. To be concrete, we disperse the instruction-following data into portions and train multiple sub-models using different data portions. Then we merge multiple models into a single one via model merging techniques. Despite its simplicity, our framework outperforms various sophisticated methods such as data curation and training regularization on a series of standard knowledge and reasoning benchmarks.
Abstract（参考訳）: 命令追従コーパスの教師付き微調整(SFT)は,大規模言語モデル(LLM)のアライメントに向けた重要なアプローチである。しかしながら、標準知識および推論ベンチマークにおけるLCMの性能は、SFTプロセス後期の劣化に悩まされがちであり、アライメント税の現象を反映している。パイロット研究を通じて、データバイアスはおそらくこの現象の背後にある1つの原因である、という仮説を立てました。この問題に対処するため,簡単な分散統合フレームワークを導入する。具体的には、命令追従データを部分に分散し、異なるデータ部分を用いて複数のサブモデルを訓練する。次に、モデルのマージ技術を通じて、複数のモデルをひとつのモデルにマージします。その単純さにもかかわらず、我々のフレームワークは、一連の標準的な知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Amortized Inference of Causal Models via Conditional Fixed-Point Iterations [17.427722515310606]
本研究では,異なるSCMからサンプリングした複数のデータセットに対して,単一モデルをトレーニングすることにより,構造因果モデル(SCM)の補正推定を提案する。まず、まず、データセット埋め込みのアモータイズ学習にトランスフォーマーベースのアーキテクチャを使用し、次にFixed-Point Approach(FiP)を拡張して、データセット埋め込みに条件付きSCMを推論する。副産物として,本手法はパラメータを更新することなく,新しいSCMから観測データや介入データを生成することができる。
論文参考訳（メタデータ） (2024-10-08T15:31:33Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
A Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
本稿では,構造因果モデル(Structure Causal Models, SCM)を因果順序付き変数の固定点問題として記述する新しい形式論を提案する。トポロジカル順序付け(TO)を考えると,その特異な回復のために最も弱い既知の条件を確立する。
論文参考訳（メタデータ） (2024-04-10T12:29:05Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning [29.72531930169291]
SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
論文参考訳（メタデータ） (2024-02-21T10:06:08Z)
Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning [0.0]
Instruction following Score (IFS, Instruction following Score) は、言語モデルの指示に従う能力を検出するメトリクスである。利用可能なベースモデルとインストラクタモデルをベンチマークし, 部分文と完全文との整形応答の比率が有効であることを示す。 IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA model。
論文参考訳（メタデータ） (2023-07-05T09:42:25Z)
MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文参考訳（メタデータ） (2022-09-26T12:04:49Z)
Few-shot Learning via Dependency Maximization and Instance Discriminant Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文参考訳（メタデータ） (2021-09-07T02:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。