論文の概要: Transformers generalize differently from information stored in context
vs in weights
- arxiv url: http://arxiv.org/abs/2210.05675v2
- Date: Thu, 13 Oct 2022 14:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:29:42.575648
- Title: Transformers generalize differently from information stored in context
vs in weights
- Title(参考訳): トランスフォーマーはコンテキストに格納されている情報と重みで異なる一般化をする
- Authors: Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran,
Andrew K. Lampinen, Felix Hill
- Abstract要約: トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に「コンテキスト内」を提供する情報という、根本的に異なる2種類の情報を使用することができる。
これら2つの情報源の情報からトランスフォーマーの表現と一般化の仕方に異なる帰納バイアスが現れることを示す。
- 参考スコア(独自算出の注目度): 21.67385448273347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models can use two fundamentally different kinds of information:
information stored in weights during training, and information provided
``in-context'' at inference time. In this work, we show that transformers
exhibit different inductive biases in how they represent and generalize from
the information in these two sources. In particular, we characterize whether
they generalize via parsimonious rules (rule-based generalization) or via
direct comparison with observed examples (exemplar-based generalization). This
is of important practical consequence, as it informs whether to encode
information in weights or in context, depending on how we want models to use
that information. In transformers trained on controlled stimuli, we find that
generalization from weights is more rule-based whereas generalization from
context is largely exemplar-based. In contrast, we find that in transformers
pre-trained on natural language, in-context learning is significantly
rule-based, with larger models showing more rule-basedness. We hypothesise that
rule-based generalization from in-context information might be an emergent
consequence of large-scale training on language, which has sparse rule-like
structure. Using controlled stimuli, we verify that transformers pretrained on
data containing sparse rule-like structure exhibit more rule-based
generalization.
- Abstract(参考訳): トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に ``in-context'' を提供する情報という、根本的に異なる2種類の情報を使用することができる。
本研究では,これら2つの情報源の情報から,変換器の表現方法と一般化方法に異なる帰納バイアスが生じることを示す。
特に、それらが相似規則(ルールベース一般化)によって一般化されるか、あるいは観測例(例ベース一般化)と直接比較されるかを特徴付ける。
これは、モデルにその情報の使い方に応じて、重みで情報をエンコードするか、文脈でエンコードすべきかを知らせる、重要な実用的な結果です。
制御刺激で訓練された変換器では、重みからの一般化は規則に基づくものであるのに対し、文脈からの一般化は典型的である。
対照的に、自然言語で事前訓練されたトランスフォーマーでは、インコンテキスト学習はルールベースであり、より大きなモデルはよりルールベースである。
文脈内情報からのルールベース一般化は,ルール的構造が乏しい言語に対する大規模学習の創発的帰結であると考えられる。
制御された刺激を用いて、スパース規則様構造を含むデータに事前学習されたトランスフォーマーがより規則に基づく一般化を示すことを検証した。
関連論文リスト
- How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - Birth of a Transformer: A Memory Viewpoint [25.294093283819443]
トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。
より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。
本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
論文 参考訳(メタデータ) (2023-06-01T15:30:33Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - Compositional generalization in semantic parsing with pretrained
transformers [13.198689566654108]
我々は,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルが,アウト・オブ・ディストリビューションの一般化を著しく改善することを示した。
また, より大規模なモデルではスクラッチからのトレーニングが困難であり, 収束までのトレーニングでは, 一般化精度が低いことを示す。
論文 参考訳(メタデータ) (2021-09-30T13:06:29Z) - Transformers Generalize Linearly [1.7709450506466664]
変換器のシーケンス・ツー・シーケンスモデルにおける構造一般化のパターンについて検討する。
変換器が多種多様な文法マッピングタスクを階層的に一般化するのに失敗するだけでなく、線形一般化の方が同等のネットワークよりも強い傾向を示す。
論文 参考訳(メタデータ) (2021-09-24T15:48:46Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。