Fugu-MT 論文翻訳(概要): Small Models are Valuable Plug-ins for Large Language Models

論文の概要: Small Models are Valuable Plug-ins for Large Language Models

arxiv url: http://arxiv.org/abs/2305.08848v1
Date: Mon, 15 May 2023 17:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 13:17:55.402725
Title: Small Models are Valuable Plug-ins for Large Language Models
Title（参考訳）: 小さなモデルは大きな言語モデルにとって価値のあるプラグインである
Authors: Canwen Xu and Yichong Xu and Shuohang Wang and Yang Liu and Chenguang Zhu and Julian McAuley
Abstract要約: GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
参考スコア（独自算出の注目度）: 65.29370906766997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
Abstract（参考訳）: GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重量は一般には公開されておらず、その大きなサイズは一般的なハードウェアで調整するのが困難である。その結果、これらのモデルを大規模な教師付きデータで効果的に調整することは困難である。代替として、ICL(In-Context Learning)はコンテキスト長制限のため、少数の教師付き例しか使用できない。本稿では,ブラックボックスllmが局所的に微調整された小型モデルで動作するスーパー・イン・コンテキスト・ラーニング(supericl)を提案する。実験により,SuperICLはテキスト内学習の不安定性問題に対処しつつ,最先端の微調整モデルよりも性能を向上できることを示した。さらに、SuperICLは、多言語性や解釈可能性など、より小さなモデルの能力を高めることができる。

関連論文リスト

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文参考訳（メタデータ） (2024-06-15T14:44:43Z)
Grimoire is All You Need for Enhancing Large Language Models [13.111331915718527]
本稿では,強力な言語モデルを用いてサンプルから学習を行い,これらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達する手法を提案する。 5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
論文参考訳（メタデータ） (2024-01-07T04:32:29Z)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。 PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文参考訳（メタデータ） (2024-01-05T09:58:09Z)
Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文参考訳（メタデータ） (2023-12-28T15:02:03Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Empower Your Model with Longer and Better Context Comprehension [15.377707808279908]
大規模言語モデル(LLM)における情報伝達の性質について検討する。本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。 LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-07-25T09:34:42Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文参考訳（メタデータ） (2022-06-15T17:32:01Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Sharpness-Aware Minimization Improves Language Model Generalization [46.83888240127077]
シャープネス認識最小化(SAM)は,計算オーバーヘッドを伴わずに言語モデルの一般化を大幅に改善できることを示す。 SAMは,SuperGLUE,GLUE,Web Questions,Natural Questions,Trivia QA,TyDiQAの性能向上を図っている。
論文参考訳（メタデータ） (2021-10-16T09:44:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。