論文の概要: Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient
Descent as Meta-Optimizers
- arxiv url: http://arxiv.org/abs/2212.10559v2
- Date: Wed, 21 Dec 2022 08:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:27:37.003238
- Title: Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient
Descent as Meta-Optimizers
- Title(参考訳): GPTはなぜインコンテキストを学習できるのか?
メタオプティマイザとしてのグラディエントDescentの言語モデル
- Authors: Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, Furu Wei
- Abstract要約: 本稿ではメタ最適化として言語モデルを説明し、ICLを暗黙の微調整の一種として理解する。
ICLは、予測レベル、表現レベル、注意行動レベルにおいて、明示的な微調整と同様に振る舞う。
- 参考スコア(独自算出の注目度): 83.09636371985913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained language models have shown surprising In-Context Learning
(ICL) ability. With a few demonstration input-label pairs, they can predict the
label for an unseen input without additional parameter updates. Despite the
great success in performance, the working mechanism of ICL still remains an
open problem. In order to better understand how ICL works, this paper explains
language models as meta-optimizers and understands ICL as a kind of implicit
finetuning. Theoretically, we figure out that the Transformer attention has a
dual form of gradient descent based optimization. On top of it, we understand
ICL as follows: GPT first produces meta-gradients according to the
demonstration examples, and then these meta-gradients are applied to the
original GPT to build an ICL model. Experimentally, we comprehensively compare
the behavior of ICL and explicit finetuning based on real tasks to provide
empirical evidence that supports our understanding. The results prove that ICL
behaves similarly to explicit finetuning at the prediction level, the
representation level, and the attention behavior level. Further, inspired by
our understanding of meta-optimization, we design a momentum-based attention by
analogy with the momentum-based gradient descent algorithm. Its consistently
better performance over vanilla attention supports our understanding again from
another aspect, and more importantly, it shows the potential to utilize our
understanding for future model designing.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示している。
数組のインプットラベルペアで、追加のパラメータ更新なしで、見当たらないインプットのラベルを予測することができる。
パフォーマンスの大きな成功にもかかわらず、ICLの動作メカニズムは依然としてオープンな問題である。
ICLの動作をよりよく理解するために、メタ最適化として言語モデルを説明し、ICLを暗黙的な微調整の一種として理解する。
理論的には、トランスフォーマーの注意は勾配降下に基づく最適化の2つの形態を持つ。
GPTはまず、実例に従ってメタグラディエントを生成し、その後、これらのメタグラディエントを元のGPTに適用し、ICLモデルを構築する。
実験では,実作業に基づくICLと明示的な微調整の挙動を総合的に比較し,理解を支える実証的な証拠を提供する。
その結果、iclは予測レベル、表現レベル、注意行動レベルで明示的な微調整と同様に振る舞うことが判明した。
さらに,メタ最適化の理解に触発されて,運動量に基づく勾配降下アルゴリズムに類似した運動量に基づく注意をデザインする。
バニラアテンションよりも一貫して優れたパフォーマンスは、別の側面からの理解を再び支援し、さらに重要なこととして、将来のモデル設計に私たちの理解を利用する可能性を示しています。
関連論文リスト
- Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective [21.361946399192195]
本稿では,SVDを用いた軽量刈り込みによりICL性能が向上するエキサイティングな現象を示す。
ICL推論の高速化のために,下流タスクのための単純,モデル圧縮,微分自由なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T06:15:35Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Towards Foundation Models for Knowledge Graph Reasoning [18.77355708537997]
知識グラフ(KG)は、一般に重複しない異なる実体と関係語彙を持つ。
本稿では、普遍的および伝達可能なグラフ表現を学習するためのアプローチであるULTRAを提案する。
様々な大きさの未確認グラフ上の単一事前学習ULTRAモデルのゼロショット帰納的推論性能は、特定のグラフ上で訓練された強いベースラインよりも、しばしば同等かそれ以上である。
論文 参考訳(メタデータ) (2023-10-06T20:00:07Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Larger language models do in-context learning differently [93.90674531127559]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (2023-03-07T12:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。