論文の概要: Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers
- arxiv url: http://arxiv.org/abs/2212.10559v3
- Date: Mon, 15 May 2023 11:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:44:29.274085
- Title: Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers
- Title(参考訳): GPTはなぜインコンテキストを学習できるのか?
メタオプティマイザとしての言語モデル
- Authors: Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Shuming Ma, Zhifang Sui, Furu
Wei
- Abstract要約: メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
- 参考スコア(独自算出の注目度): 93.9369467909176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained language models have shown surprising in-context learning
(ICL) ability. With a few demonstration input-label pairs, they can predict the
label for an unseen input without parameter updates. Despite the great success
in performance, its working mechanism still remains an open question. In this
paper, we explain language models as meta-optimizers and understand in-context
learning as implicit finetuning. Theoretically, we figure out that Transformer
attention has a dual form of gradient descent. On top of it, we understand ICL
as follows: GPT first produces meta-gradients according to the demonstration
examples, and then these meta-gradients are applied to the original GPT to
build an ICL model. We comprehensively compare the behaviors of in-context
learning and explicit finetuning on real tasks to provide empirical evidence
that supports our understanding. Experimental results show that in-context
learning behaves similarly to explicit finetuning from multiple perspectives.
Inspired by the dual form between Transformer attention and gradient descent,
we design a momentum-based attention by analogy with gradient descent with
momentum. The improved performance over vanilla attention further supports our
understanding from another perspective, and more importantly, shows the
potential to utilize our understanding for future model design. The code is
available at \url{https://aka.ms/icl}.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示している。
いくつかデモされたインプットラベルペアを使えば、パラメータ更新なしに、見えないインプットのラベルを予測できる。
性能に大きな成功を収めたものの、その動作メカニズムはいまだに未解決のままである。
本稿ではメタ最適化として言語モデルを説明し,文脈内学習を暗黙の微調整として理解する。
理論的には、トランスフォーマーの注意は勾配降下の2つの形態を持つ。
GPTはまず、実例に従ってメタグラディエントを生成し、その後、これらのメタグラディエントを元のGPTに適用し、ICLモデルを構築する。
本研究では,実作業における文脈内学習の行動と明示的な微調整を総合的に比較し,理解を支援する実証的な証拠を提供する。
実験結果から、文脈内学習は複数の視点から明示的な微調整と同様の振る舞いを示す。
変圧器の注意と勾配降下の2つの形態に着想を得て,運動量勾配と運動量との類似性によって運動量に基づく注意をデザインする。
バニラの注意よりも優れたパフォーマンスは、別の観点からの我々の理解をさらに支援し、さらに重要なことは、将来のモデル設計に私たちの理解を利用する可能性を示しています。
コードは \url{https://aka.ms/icl} で利用可能である。
関連論文リスト
- Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective [21.361946399192195]
本稿では,SVDを用いた軽量刈り込みによりICL性能が向上するエキサイティングな現象を示す。
ICL推論の高速化のために,下流タスクのための単純,モデル圧縮,微分自由なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T06:15:35Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Towards Foundation Models for Knowledge Graph Reasoning [18.77355708537997]
知識グラフ(KG)は、一般に重複しない異なる実体と関係語彙を持つ。
本稿では、普遍的および伝達可能なグラフ表現を学習するためのアプローチであるULTRAを提案する。
様々な大きさの未確認グラフ上の単一事前学習ULTRAモデルのゼロショット帰納的推論性能は、特定のグラフ上で訓練された強いベースラインよりも、しばしば同等かそれ以上である。
論文 参考訳(メタデータ) (2023-10-06T20:00:07Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Larger language models do in-context learning differently [93.90674531127559]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (2023-03-07T12:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。