Fugu-MT 論文翻訳(概要): Transformers generalize differently from information stored in context vs in weights

論文の概要: Transformers generalize differently from information stored in context vs in weights

arxiv url: http://arxiv.org/abs/2210.05675v2
Date: Thu, 13 Oct 2022 14:06:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 11:29:42.575648
Title: Transformers generalize differently from information stored in context vs in weights
Title（参考訳）: トランスフォーマーはコンテキストに格納されている情報と重みで異なる一般化をする
Authors: Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran, Andrew K. Lampinen, Felix Hill
Abstract要約: トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に「コンテキスト内」を提供する情報という、根本的に異なる2種類の情報を使用することができる。これら2つの情報源の情報からトランスフォーマーの表現と一般化の仕方に異なる帰納バイアスが現れることを示す。
参考スコア（独自算出の注目度）: 21.67385448273347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models can use two fundamentally different kinds of information: information stored in weights during training, and information provided ``in-context'' at inference time. In this work, we show that transformers exhibit different inductive biases in how they represent and generalize from the information in these two sources. In particular, we characterize whether they generalize via parsimonious rules (rule-based generalization) or via direct comparison with observed examples (exemplar-based generalization). This is of important practical consequence, as it informs whether to encode information in weights or in context, depending on how we want models to use that information. In transformers trained on controlled stimuli, we find that generalization from weights is more rule-based whereas generalization from context is largely exemplar-based. In contrast, we find that in transformers pre-trained on natural language, in-context learning is significantly rule-based, with larger models showing more rule-basedness. We hypothesise that rule-based generalization from in-context information might be an emergent consequence of large-scale training on language, which has sparse rule-like structure. Using controlled stimuli, we verify that transformers pretrained on data containing sparse rule-like structure exhibit more rule-based generalization.
Abstract（参考訳）: トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に ``in-context'' を提供する情報という、根本的に異なる2種類の情報を使用することができる。本研究では,これら2つの情報源の情報から,変換器の表現方法と一般化方法に異なる帰納バイアスが生じることを示す。特に、それらが相似規則(ルールベース一般化)によって一般化されるか、あるいは観測例(例ベース一般化)と直接比較されるかを特徴付ける。これは、モデルにその情報の使い方に応じて、重みで情報をエンコードするか、文脈でエンコードすべきかを知らせる、重要な実用的な結果です。制御刺激で訓練された変換器では、重みからの一般化は規則に基づくものであるのに対し、文脈からの一般化は典型的である。対照的に、自然言語で事前訓練されたトランスフォーマーでは、インコンテキスト学習はルールベースであり、より大きなモデルはよりルールベースである。文脈内情報からのルールベース一般化は,ルール的構造が乏しい言語に対する大規模学習の創発的帰結であると考えられる。制御された刺激を用いて、スパース規則様構造を含むデータに事前学習されたトランスフォーマーがより規則に基づく一般化を示すことを検証した。

関連論文リスト

When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。 ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文参考訳（メタデータ） (2026-02-09T05:58:41Z)
Extrapolation by Association: Length Generalization Transfer in Transformers [29.659527141850436]
長さ一般化は関連するタスク間でテキスト転送可能であることを示す。この結果から, 変圧器モデルでは, 協調学習時に類似タスクから一般化能力を継承できることが示唆された。長さ一般化の伝達は,タスク間の同一の注目ヘッドの再使用と相関する,初期力学的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-10T21:22:51Z)
Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
コンテクストでよく使われる統計モデルに対して、変換器はベイズ推定をフルに行うことができることを示す。本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文参考訳（メタデータ） (2025-01-28T10:04:53Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts [14.76420070558434]
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。規則の交わりによって定義される形式言語に焦点を当てる。我々はアルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
論文参考訳（メタデータ） (2024-09-09T22:36:35Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文参考訳（メタデータ） (2024-03-18T14:45:52Z)
Birth of a Transformer: A Memory Viewpoint [25.294093283819443]
トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
論文参考訳（メタデータ） (2023-06-01T15:30:33Z)
Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文参考訳（メタデータ） (2023-05-30T04:34:13Z)
Transformers Generalize Linearly [1.7709450506466664]
変換器のシーケンス・ツー・シーケンスモデルにおける構造一般化のパターンについて検討する。変換器が多種多様な文法マッピングタスクを階層的に一般化するのに失敗するだけでなく、線形一般化の方が同等のネットワークよりも強い傾向を示す。
論文参考訳（メタデータ） (2021-09-24T15:48:46Z)
Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文参考訳（メタデータ） (2021-06-07T03:04:59Z)
The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文参考訳（メタデータ） (2020-10-22T12:27:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。