論文の概要: In-Context Learning with Many Demonstration Examples
- arxiv url: http://arxiv.org/abs/2302.04931v1
- Date: Thu, 9 Feb 2023 20:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 17:15:37.758488
- Title: In-Context Learning with Many Demonstration Examples
- Title(参考訳): 実例によるインコンテキスト学習
- Authors: Mukai Li, Shansan Gong, Jiangtao Feng, Yiheng Xu, Jun Zhang, Zhiyong
Wu, Lingpeng Kong
- Abstract要約: 本稿では,効率的なトランス機構に基づく長距離言語モデルEVALMを提案する。
EVALMはバッチ行あたり8kトークンでトレーニングされ、256kまでのコンテキストをテストすることができる。
マルチショット・インストラクション・チューニングにおいて,テキスト内学習はより多くの実演を伴って高い性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 26.39178386828271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-training language models (PLMs) have shown promising in-context
learning abilities. However, due to the backbone transformer architecture,
existing PLMs are bottlenecked by the memory and computational cost when
scaling up to a large context size, leaving instruction tuning and in-context
learning of many demonstration examples, as well as long-range language
modeling under-explored. In this study, we propose a long-range language model
EVALM based on an efficient transformer mechanism. EVALM is trained with 8k
tokens per batch line and can test up to 256k-lengthed contexts with
extrapolation, 128 times to the limit of existing PLMs (e.g. GPT3). Based on
EVALM, we scale up the size of examples efficiently in both instruction tuning
and in-context learning to explore the boundary of the benefits from more
annotated data. Experimental results on a diverse set of tasks show that EVALM
achieves 4.1% higher accuracy on average, and the average length of achieving
the best accuracy score over tasks is around 12k. We find that in-context
learning can achieve higher performance with more demonstrations under
many-shot instruction tuning (8k), and further extending the length of
instructions (16k) can further improve the upper bound of scaling in-context
learning.
- Abstract(参考訳): 大規模事前学習言語モデル(PLM)は、コンテキスト内学習能力を有望に示す。
しかし、バックボーントランスフォーマーアーキテクチャのため、既存のplmは、大きなコンテキストサイズまでスケールアップする際のメモリと計算コストによってボトルネックとなり、多くの実証例の命令チューニングとインコンテキスト学習、さらには長期言語モデリングが未検討のままである。
本研究では,効率的なトランス機構に基づく長距離言語モデルEVALMを提案する。
evalmはバッチライン毎に8kトークンでトレーニングされ、最大256kの長さのコンテキストを外挿でテストすることができる。
EVALMに基づいて、命令チューニングとコンテキスト内学習の両方において、サンプルのサイズを効率的にスケールアップし、より注釈付きデータによるメリットの境界を探索する。
多様なタスクに対する実験結果から、EVALMは平均で4.1%高い精度を達成し、タスクに対して最高の精度のスコアを達成する平均期間は約12kであることがわかった。
インコンテキスト学習は,マルチショット・インストラクション・チューニング(8k)の下でより多くの実演を行うことができ,さらに命令の長さ(16k)を延長することで,インコンテキスト学習のスケールアップの上限をさらに向上させることができる。
関連論文リスト
- Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。