論文の概要: Grimoire is All You Need for Enhancing Large Language Models
- arxiv url: http://arxiv.org/abs/2401.03385v1
- Date: Sun, 7 Jan 2024 04:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:15:48.810385
- Title: Grimoire is All You Need for Enhancing Large Language Models
- Title(参考訳): Grimoireは大規模言語モデルの強化に必要なもの
- Authors: Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu
Xiong, Bo Tang
- Abstract要約: In-context Learning (ICL) は、特定のタスクにおける大規模言語モデルの性能を高めるための重要な手法の1つである。
本稿では,SLEICL(Strong LLM Enhanced ICL)を提案する。
弱言語モデルは,SLEICL法を用いて,ゼロショットや少数ショット機能よりも一貫した改善を実現することを示す。
- 参考スコア(独自算出の注目度): 13.111331915718527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) is one of the key methods for enhancing the
performance of large language models on specific tasks by providing a set of
few-shot question and answer examples. However, the ICL capability of different
types of models shows significant variation due to factors such as model
architecture, volume of learning data, and the size of parameters. Generally,
the larger the model's parameter size and the more extensive the learning data,
the stronger its ICL capability. In this paper, we propose a method SLEICL
(Strong LLM Enhanced ICL) that involves learning from examples using strong
language models and then summarizing and transferring these learned skills to
weak language models for inference and application. This ensures the stability
and effectiveness of ICL. Compared to directly enabling weak language models to
learn from prompt examples, SLEICL reduces the difficulty of ICL for these
models. Our experiments, conducted on up to eight datasets with five language
models, demonstrate that weak language models achieve consistent improvement
over their own zero-shot or few-shot capabilities using the SLEICL method. Some
weak language models even surpass the performance of GPT4-1106-preview
(zero-shot) with the aid of SLEICL.
- Abstract(参考訳): In-context Learning(ICL)は、いくつかの質問と回答の例を提供することで、特定のタスクにおける大規模言語モデルの性能を向上させるための重要な方法の1つである。
しかし、異なるタイプのモデルのicl能力は、モデルアーキテクチャ、学習データ量、パラメータのサイズといった要因により、大きな変動を示す。
一般に、モデルのパラメータサイズが大きくなり、学習データが大きくなればなるほど、そのicl能力は強くなる。
本稿では,強力な言語モデルを用いた例から学習し,これらの学習スキルを推論や応用のための弱い言語モデルに要約・移行するslieicl(strong llm enhanced icl)法を提案する。
これにより、ICLの安定性と有効性が保証される。
SLEICLは、弱い言語モデルを直接学習するのに対して、これらのモデルではICLの難しさを減らしている。
5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
いくつかの弱い言語モデルは、SLEICLの助けを借りて、GPT4-1106-preview(ゼロショット)のパフォーマンスを上回りました。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。