論文の概要: Transformers generalize differently from information stored in context
vs in weights
- arxiv url: http://arxiv.org/abs/2210.05675v1
- Date: Tue, 11 Oct 2022 09:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:06:58.507516
- Title: Transformers generalize differently from information stored in context
vs in weights
- Title(参考訳): トランスフォーマーはコンテキストに格納されている情報と重みで異なる一般化をする
- Authors: Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran,
Andrew K. Lampinen, Felix Hill
- Abstract要約: トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に「コンテキスト内」を提供する情報という、根本的に異なる2種類の情報を使用することができる。
これら2つの情報源の情報からトランスフォーマーの表現と一般化の仕方に異なる帰納バイアスが現れることを示す。
- 参考スコア(独自算出の注目度): 21.67385448273347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models can use two fundamentally different kinds of information:
information stored in weights during training, and information provided
``in-context'' at inference time. In this work, we show that transformers
exhibit different inductive biases in how they represent and generalize from
the information in these two sources. In particular, we characterize whether
they generalize via parsimonious rules (rule-based generalization) or via
direct comparison with observed examples (exemplar-based generalization). This
is of important practical consequence, as it informs whether to encode
information in weights or in context, depending on how we want models to use
that information. In transformers trained on controlled stimuli, we find that
generalization from weights is more rule-based whereas generalization from
context is largely exemplar-based. In contrast, we find that in transformers
pre-trained on natural language, in-context learning is significantly
rule-based, with larger models showing more rule-basedness. We hypothesise that
rule-based generalization from in-context information might be an emergent
consequence of large-scale training on language, which has sparse rule-like
structure. Using controlled stimuli, we verify that transformers pretrained on
data containing sparse rule-like structure exhibit more rule-based
generalization.
- Abstract(参考訳): トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に ``in-context'' を提供する情報という、根本的に異なる2種類の情報を使用することができる。
本研究では,これら2つの情報源の情報から,変換器の表現方法と一般化方法に異なる帰納バイアスが生じることを示す。
特に、それらが相似規則(ルールベース一般化)によって一般化されるか、あるいは観測例(例ベース一般化)と直接比較されるかを特徴付ける。
これは、モデルにその情報の使い方に応じて、重みで情報をエンコードするか、文脈でエンコードすべきかを知らせる、重要な実用的な結果です。
制御刺激で訓練された変換器では、重みからの一般化は規則に基づくものであるのに対し、文脈からの一般化は典型的である。
対照的に、自然言語で事前訓練されたトランスフォーマーでは、インコンテキスト学習はルールベースであり、より大きなモデルはよりルールベースである。
文脈内情報からのルールベース一般化は,ルール的構造が乏しい言語に対する大規模学習の創発的帰結であると考えられる。
制御された刺激を用いて、スパース規則様構造を含むデータに事前学習されたトランスフォーマーがより規則に基づく一般化を示すことを検証した。
関連論文リスト
- Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts [14.76420070558434]
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則の交わりによって定義される形式言語に焦点を当てる。
我々はアルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
論文 参考訳(メタデータ) (2024-09-09T22:36:35Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - Birth of a Transformer: A Memory Viewpoint [25.294093283819443]
トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。
より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。
本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
論文 参考訳(メタデータ) (2023-06-01T15:30:33Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Transformers Generalize Linearly [1.7709450506466664]
変換器のシーケンス・ツー・シーケンスモデルにおける構造一般化のパターンについて検討する。
変換器が多種多様な文法マッピングタスクを階層的に一般化するのに失敗するだけでなく、線形一般化の方が同等のネットワークよりも強い傾向を示す。
論文 参考訳(メタデータ) (2021-09-24T15:48:46Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。