Fugu-MT 論文翻訳(概要): Phased Instruction Fine-Tuning for Large Language Models

論文の概要: Phased Instruction Fine-Tuning for Large Language Models

arxiv url: http://arxiv.org/abs/2406.04371v2
Date: Sun, 16 Jun 2024 21:20:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 02:10:30.459185
Title: Phased Instruction Fine-Tuning for Large Language Models
Title（参考訳）: 大規模言語モデルのためのフェーズドインストラクションファインタニング
Authors: Wei Pang, Chuan Zhou, Xiao-Hua Zhou, Xiaojie Wang,
Abstract要約: Phased IFT(Phased Instruction Fine-Tuning)を提案する。 GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 12.037895935630882
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction Fine-Tuning enhances pre-trained language models from basic next-word prediction to complex instruction-following. However, existing One-off Instruction Fine-Tuning (One-off IFT) method, applied on a diverse instruction, may not effectively boost models' adherence to instructions due to the simultaneous handling of varying instruction complexities. To improve this, Phased Instruction Fine-Tuning (Phased IFT) is proposed, based on the idea that learning to follow instructions is a gradual process. It assesses instruction difficulty using GPT-4, divides the instruction data into subsets of increasing difficulty, and uptrains the model sequentially on these subsets. Experiments with Llama-2 7B/13B/70B, Llama3 8/70B and Mistral-7B models using Alpaca data show that Phased IFT significantly outperforms One-off IFT, supporting the progressive alignment hypothesis and providing a simple and efficient way to enhance large language models. Codes and datasets from our experiments are freely available at https://github.com/xubuvd/PhasedSFT.
Abstract（参考訳）: Instruction Fine-Tuningは、基本的な次の単語予測から複雑な命令フォローまで、事前訓練された言語モデルを強化する。しかし,既存のワンオフインストラクションファインタニング (One-off Instruction Fine-Tuning, IFT) 法は多種多様な命令に適用されている。これを改善するために,段階的指導細調整(Phased IFT)を提案する。 GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。 Alpacaデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTはワンオフIFTよりも優れており、プログレッシブアライメント仮説をサポートし、大規模言語モデルを強化するシンプルで効率的な方法を提供する。実験から得られたコードとデータセットはhttps://github.com/xubuvd/PhasedSFT.comで無償公開されている。

関連論文リスト

Smaller Language Models Are Better Instruction Evolvers [10.587052565101844]
小さい言語モデル(SLM)は大きな言語モデル(LLM)よりも効果的な命令を合成できる命令データの有効性をより正確に評価するために,インストラクション複合認識IFD(IC-IFD)を提案する。
論文参考訳（メタデータ） (2024-12-15T16:07:48Z)
Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。 DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-06-17T08:08:11Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。 Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文参考訳（メタデータ） (2024-04-03T15:55:39Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。 SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。