論文の概要: LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions
- arxiv url: http://arxiv.org/abs/2304.14402v1
- Date: Thu, 27 Apr 2023 17:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 11:54:56.861732
- Title: LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions
- Title(参考訳): LaMini-LM:大規模インストラクションによる蒸留モデルの多様性
- Authors: Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham
Fikri Aji
- Abstract要約: 命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
次に、様々なサイズのLaMini-LMと呼ばれるモデルのホストをチューニングするための命令を利用する。
- 参考スコア(独自算出の注目度): 9.380691077511726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with instruction finetuning demonstrate superior
generative capabilities. However, these models are resource intensive. To
alleviate this issue, we explore distilling knowledge from instruction-tuned
LLMs to much smaller ones. To this end, we carefully develop a large set of
2.58M instructions based on both existing and newly-generated instructions. In
addition to being sizeable, we design our instructions to cover a broad set of
topics to ensure. A thorough investigation of our instruction data demonstrate
their diversity, and we generate responses for these instructions using
gpt-3.5-turbo. We then exploit the instructions to tune a host of models,
dubbed LaMini-LM, of varying sizes, both from the encoder-decoder as well as
the decoder-only families. We evaluate our models both automatically (on 15
different NLP benchmarks) and manually. Results show that our proposed
LaMini-LM are on par with competitive baselines while being nearly 10 times
smaller in size.
- Abstract(参考訳): 命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
しかし、これらのモデルはリソース集約的です。
この問題を軽減するため,命令調整型LLMからはるかに小さなLSMへの知識の蒸留について検討する。
この目的のために,既存の命令と新規命令の両方に基づいて258万命令の大規模なセットを慎重に開発する。
サイズが拡大するだけでなく,幅広いトピックをカバーするための指示も設計しています。
提案手法の多様性を実証し, gpt-3.5-turbo を用いてこれらの命令に対する応答を生成する。
次に、エンコーダデコーダとデコーダのみのファミリーの両方から、さまざまなサイズのLaMini-LMと呼ばれるモデルのホストをチューニングするための命令を利用する。
我々は、自動(15の異なるNLPベンチマークで)および手動でモデルを評価する。
その結果,提案するLaMini-LMは,10倍近いサイズで,競合するベースラインと同等であることがわかった。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。