論文の概要: Iterative Forward Tuning Boosts In-context Learning in Language Models
- arxiv url: http://arxiv.org/abs/2305.13016v2
- Date: Tue, 30 May 2023 05:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:21:28.615462
- Title: Iterative Forward Tuning Boosts In-context Learning in Language Models
- Title(参考訳): Iterative Forward Tuningが言語モデルにおけるコンテキスト内学習を強化
- Authors: Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li
- Abstract要約: 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
- 参考スコア(独自算出の注目度): 46.848235335267375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited an emergent in-context learning
(ICL) ability. However, the ICL models that can solve ordinary cases are hardly
extended to solve more complex tasks by processing the demonstration examples
once. This single-turn ICL is incoordinate with the decision making process of
humans by learning from analogy. In this paper, we propose an effective and
efficient two-stage framework to boost ICL in LLMs by exploiting a dual form
between Transformer attention and gradient descent-based optimization.
Concretely, we divide the ICL process into "Deep-Thinking" and inference
stages. The "Deep-Thinking" stage performs iterative forward optimization of
demonstrations, which is expected to boost the reasoning abilities of LLMs at
test time by "thinking" demonstrations multiple times. It produces accumulated
meta-gradients by manipulating the Key-Value matrices in the self-attention
modules of the Transformer. Then, the inference stage only takes the test query
as input without concatenating demonstrations and applies the learned
meta-gradients through attention for output prediction. In this way,
demonstrations are not required during the inference stage since they are
already learned and stored in the definitive meta-gradients. LLMs can be
effectively and efficiently adapted to downstream tasks. Extensive experiments
on ten classification and multiple-choice datasets show that our method
achieves substantially better performance than standard ICL in terms of both
accuracy and efficiency.
- Abstract(参考訳): 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
しかし,実演例を一度処理することにより,より複雑な課題を解決するために,通常のケースを解決できるiclモデルはほとんど拡張されない。
この一ターンのiclは、アナロジーから学習することで人間の意思決定プロセスと無関係である。
本稿では,トランスフォーマーアテンションと勾配降下に基づく最適化の二重形式を利用して,LLMにおけるICLを効果的かつ効率的に向上する2段階フレームワークを提案する。
具体的には、iclプロセスを「深い思考」と推論段階に分割する。
深層思考(deep-thinking)"段階は、複数のデモを"思考"することで、テスト時のllmの推論能力を高めることが期待されている、デモの反復的な前方最適化を実行する。
トランスフォーマーの自己保持モジュールでキーバリュー行列を操作することで、蓄積されたメタグラディエントを生成する。
そして、推論段階は、実演を連結せずにテストクエリを入力として取り、学習したメタ勾配を注意して出力予測を行う。
このように、推論段階では、すでに学習され、決定的なメタ段階に格納されているため、デモは必要ない。
LLMは下流タスクに効果的かつ効率的に適応できる。
10の分類と複数選択データセットの大規模な実験により,本手法は精度と効率の両面において,標準ICLよりもかなり優れた性能が得られることが示された。
関連論文リスト
- Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with
Curriculum Learning [10.053004550486214]
デモオーダリングは,大規模言語モデル(LLM)の性能に大きく影響する。
我々は,ICLの簡易かつ効果的な実演順序付け手法であるICCLを提唱する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning [29.3822877145617]
Batch-ICLは、文脈内学習のための効率的、効率的、秩序に依存しない推論アルゴリズムである。
Batch-ICL は ICL の例のほとんどを一貫して上回っていることを示す。
また,メタ最適化の「エポック」を複数備えた新しいBatch-ICLを開発した。
論文 参考訳(メタデータ) (2024-01-12T09:31:17Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language
Models with 3D Parallelism [75.1814102438065]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。