Fugu-MT 論文翻訳(概要): Grimoire is All You Need for Enhancing Large Language Models

論文の概要: Grimoire is All You Need for Enhancing Large Language Models

arxiv url: http://arxiv.org/abs/2401.03385v2
Date: Wed, 10 Jan 2024 08:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 11:45:33.802781
Title: Grimoire is All You Need for Enhancing Large Language Models
Title（参考訳）: Grimoireは大規模言語モデルの強化に必要なもの
Authors: Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu Xiong, Bo Tang
Abstract要約: 本稿では,強力な言語モデルを用いてサンプルから学習を行い,これらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達する手法を提案する。 5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
参考スコア（独自算出の注目度）: 13.111331915718527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context Learning (ICL) is one of the key methods for enhancing the performance of large language models on specific tasks by providing a set of few-shot examples. However, the ICL capability of different types of models shows significant variation due to factors such as model architecture, volume of learning data, and the size of parameters. Generally, the larger the model's parameter size and the more extensive the learning data, the stronger its ICL capability. In this paper, we propose a method SLEICL that involves learning from examples using strong language models and then summarizing and transferring these learned skills to weak language models for inference and application. This ensures the stability and effectiveness of ICL. Compared to directly enabling weak language models to learn from prompt examples, SLEICL reduces the difficulty of ICL for these models. Our experiments, conducted on up to eight datasets with five language models, demonstrate that weak language models achieve consistent improvement over their own zero-shot or few-shot capabilities using the SLEICL method. Some weak language models even surpass the performance of GPT4-1106-preview (zero-shot) with the aid of SLEICL.
Abstract（参考訳）: in-context learning(icl)は、特定のタスクにおける大規模言語モデルのパフォーマンスを向上させるための重要な方法の1つである。しかし、異なるタイプのモデルのicl能力は、モデルアーキテクチャ、学習データ量、パラメータのサイズといった要因により、大きな変動を示す。一般に、モデルのパラメータサイズが大きくなり、学習データが大きくなればなるほど、そのicl能力は強くなる。本稿では,強力な言語モデルを用いてサンプルから学習し,それらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達するSLEICLを提案する。これにより、ICLの安定性と有効性が保証される。 SLEICLは、弱い言語モデルを直接学習するのに対して、これらのモデルではICLの難しさを減らしている。 5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。いくつかの弱い言語モデルは、SLEICLの助けを借りて、GPT4-1106-preview(ゼロショット)のパフォーマンスを上回りました。

関連論文リスト

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。 2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文参考訳（メタデータ） (2025-01-10T00:10:21Z)
Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:52:09Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文参考訳（メタデータ） (2024-04-02T18:00:28Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文参考訳（メタデータ） (2023-05-15T17:59:01Z)
Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文参考訳（メタデータ） (2023-02-24T18:59:51Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。