論文の概要: Small Models are Valuable Plug-ins for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.08848v1
- Date: Mon, 15 May 2023 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:17:55.402725
- Title: Small Models are Valuable Plug-ins for Large Language Models
- Title(参考訳): 小さなモデルは大きな言語モデルにとって価値のあるプラグインである
- Authors: Canwen Xu and Yichong Xu and Shuohang Wang and Yang Liu and Chenguang
Zhu and Julian McAuley
- Abstract要約: GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
- 参考スコア(独自算出の注目度): 65.29370906766997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their
weights are often publicly unavailable and their immense sizes make the models
difficult to be tuned with common hardware. As a result, effectively tuning
these models with large-scale supervised data can be challenging. As an
alternative, In-Context Learning (ICL) can only use a small number of
supervised examples due to context length limits. In this paper, we propose
Super In-Context Learning (SuperICL) which allows black-box LLMs to work with
locally fine-tuned smaller models, resulting in superior performance on
supervised tasks. Our experiments demonstrate that SuperICL can improve
performance beyond state-of-the-art fine-tuned models while addressing the
instability problem of in-context learning. Furthermore, SuperICL can enhance
the capabilities of smaller models, such as multilinguality and
interpretability.
- Abstract(参考訳): GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重量は一般には公開されておらず、その大きなサイズは一般的なハードウェアで調整するのが困難である。
その結果、これらのモデルを大規模な教師付きデータで効果的に調整することは困難である。
代替として、ICL(In-Context Learning)はコンテキスト長制限のため、少数の教師付き例しか使用できない。
本稿では,ブラックボックスllmが局所的に微調整された小型モデルで動作するスーパー・イン・コンテキスト・ラーニング(supericl)を提案する。
実験により,SuperICLはテキスト内学習の不安定性問題に対処しつつ,最先端の微調整モデルよりも性能を向上できることを示した。
さらに、SuperICLは、多言語性や解釈可能性など、より小さなモデルの能力を高めることができる。
関連論文リスト
- Grimoire is All You Need for Enhancing Large Language Models [13.111331915718527]
本稿では,強力な言語モデルを用いてサンプルから学習を行い,これらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達する手法を提案する。
5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
論文 参考訳(メタデータ) (2024-01-07T04:32:29Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts
for Instruction Tuning on General Tasks [6.048370838631722]
紹介する。
-高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。
PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Improving In-context Learning via Bidirectional Alignment [34.920261933069]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
その成功にもかかわらず、より大きなモデルのスケールと複雑さは、前例のないほど高い計算要求とデプロイメントの課題に繋がる。
そこで本研究では,より小さなモデルのICL能力を向上させるために,ICL事例に対するモデルの好みを十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Empower Your Model with Longer and Better Context Comprehension [15.377707808279908]
大規模言語モデル(LLM)における情報伝達の性質について検討する。
本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。
LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-07-25T09:34:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文 参考訳(メタデータ) (2022-06-15T17:32:01Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。