論文の概要: Grimoire is All You Need for Enhancing Large Language Models
- arxiv url: http://arxiv.org/abs/2401.03385v2
- Date: Wed, 10 Jan 2024 08:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 11:45:33.802781
- Title: Grimoire is All You Need for Enhancing Large Language Models
- Title(参考訳): Grimoireは大規模言語モデルの強化に必要なもの
- Authors: Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu
Xiong, Bo Tang
- Abstract要約: 本稿では,強力な言語モデルを用いてサンプルから学習を行い,これらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達する手法を提案する。
5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
- 参考スコア(独自算出の注目度): 13.111331915718527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context Learning (ICL) is one of the key methods for enhancing the
performance of large language models on specific tasks by providing a set of
few-shot examples. However, the ICL capability of different types of models
shows significant variation due to factors such as model architecture, volume
of learning data, and the size of parameters. Generally, the larger the model's
parameter size and the more extensive the learning data, the stronger its ICL
capability. In this paper, we propose a method SLEICL that involves learning
from examples using strong language models and then summarizing and
transferring these learned skills to weak language models for inference and
application. This ensures the stability and effectiveness of ICL. Compared to
directly enabling weak language models to learn from prompt examples, SLEICL
reduces the difficulty of ICL for these models. Our experiments, conducted on
up to eight datasets with five language models, demonstrate that weak language
models achieve consistent improvement over their own zero-shot or few-shot
capabilities using the SLEICL method. Some weak language models even surpass
the performance of GPT4-1106-preview (zero-shot) with the aid of SLEICL.
- Abstract(参考訳): in-context learning(icl)は、特定のタスクにおける大規模言語モデルのパフォーマンスを向上させるための重要な方法の1つである。
しかし、異なるタイプのモデルのicl能力は、モデルアーキテクチャ、学習データ量、パラメータのサイズといった要因により、大きな変動を示す。
一般に、モデルのパラメータサイズが大きくなり、学習データが大きくなればなるほど、そのicl能力は強くなる。
本稿では,強力な言語モデルを用いてサンプルから学習し,それらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達するSLEICLを提案する。
これにより、ICLの安定性と有効性が保証される。
SLEICLは、弱い言語モデルを直接学習するのに対して、これらのモデルではICLの難しさを減らしている。
5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
いくつかの弱い言語モデルは、SLEICLの助けを借りて、GPT4-1106-preview(ゼロショット)のパフォーマンスを上回りました。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。