論文の概要: Birth of a Transformer: A Memory Viewpoint
- arxiv url: http://arxiv.org/abs/2306.00802v2
- Date: Mon, 6 Nov 2023 22:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:31:58.657805
- Title: Birth of a Transformer: A Memory Viewpoint
- Title(参考訳): トランスフォーマーの誕生:メモリビューポイント
- Authors: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon
Bottou
- Abstract要約: トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。
より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。
本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
- 参考スコア(独自算出の注目度): 25.294093283819443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.
- Abstract(参考訳): トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。
しかし、より広くデプロイされるため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要性が高まっている。
これらのモデルはトレーニングデータから大量の知識を蓄積し、彼らのコンテキストやプロンプトで提供される新しい情報に迅速に適応するように見える。
本研究では,グローバルあるいはコンテキスト固有なビッグラム分布からトークンが生成される合成設定を考慮し,これらの2種類の知識のバランスについて検討する。
簡易な2層変圧器の訓練過程を慎重に解析することにより,大域的ビッグラムの高速学習と,テキスト内ビッグラムの「インダクションヘッド」機構の開発が遅いことを示す。
重み行列の役割を連想記憶として強調し、学習中に勾配が学習を可能にするかの理論的な洞察を与え、データ分散特性の役割を研究する。
関連論文リスト
- Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。
トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文 参考訳(メタデータ) (2025-01-30T15:56:25Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Understanding Knowledge Hijack Mechanism in In-context Learning through Associative Memory [37.93644115914534]
In-context Learning (ICL) は、大規模言語モデルが微調整なしで新しいタスクに適応できるようにする。
本稿では,トークン予測における文脈内情報と事前学習したビッグラム知識のバランスについて検討する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。