論文の概要: LAB: Large-Scale Alignment for ChatBots
- arxiv url: http://arxiv.org/abs/2403.01081v2
- Date: Wed, 6 Mar 2024 22:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:35:57.956172
- Title: LAB: Large-Scale Alignment for ChatBots
- Title(参考訳): LAB: チャットボットの大規模アライメント
- Authors: Shivchander Sudalairaj, Abhishek Bhandwaldar, Aldo Pareja, Kai Xu,
David D. Cox, Akash Srivastava
- Abstract要約: LAB (Large-scale Alignment for chatBots) は,大規模言語モデル(LLM)訓練における命令調整フェーズにおけるスケーラビリティの課題を克服するために設計された,新しい方法論である。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
- 参考スコア(独自算出の注目度): 14.483190246540731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces LAB (Large-scale Alignment for chatBots), a novel
methodology designed to overcome the scalability challenges in the
instruction-tuning phase of large language model (LLM) training. Leveraging a
taxonomy-guided synthetic data generation process and a multi-phase tuning
framework, LAB significantly reduces reliance on expensive human annotations
and proprietary models like GPT-4. We demonstrate that LAB-trained models can
achieve competitive performance across several benchmarks compared to models
trained with traditional human-annotated or GPT-4 generated synthetic data.
Thus offering a scalable, cost-effective solution for enhancing LLM
capabilities and instruction-following behaviors without the drawbacks of
catastrophic forgetting, marking a step forward in the efficient training of
LLMs for a wide range of applications.
- Abstract(参考訳): LAB(Large-scale Alignment for chatBots)は,大規模言語モデル(LLM)学習の指導・チューニングフェーズにおいて,スケーラビリティの課題を克服する新しい手法である。
分類誘導合成データ生成プロセスと多相チューニングフレームワークを活用することで、LABは高価な人間のアノテーションやGPT-4のようなプロプライエタリなモデルへの依存を著しく低減する。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
したがって,LLMの能力向上のためのスケーラブルで費用対効果の高いソリューションと,大惨な忘れ込みの欠点を伴わない命令追従動作を提供することで,LLMの幅広い応用のための効率的なトレーニングの一歩となる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は大規模言語モデル(LLM)に固有の能力として自己補正を組み込む
CoSCは、一連の自己補正段階を通して動作する。各段階において、LLMは、与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行し、出力を取得し、その後、その出力を検証する。
第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。
第2段階では、CoSC能力は、より大きな自己生成データを用いたトレーニングによりさらに強化される。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。
本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:44:31Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - GPTA: Generative Prompt Tuning Assistant for Synergistic Downstream Neural Network Enhancement with LLMs [11.572835837392867]
本研究はGPTA(Large Language Model assistance training framework)を導入し,プレフィックスプロンプトによる下流タスクモデルのトレーニングを強化する。
LLMのデータ露出を最小限にすることで、下流タスクモデルトレーニングにLLMを適用する際のセキュリティと法的課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T23:04:04Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。