Fugu-MT 論文翻訳(概要): Birth of a Transformer: A Memory Viewpoint

論文の概要: Birth of a Transformer: A Memory Viewpoint

arxiv url: http://arxiv.org/abs/2306.00802v1
Date: Thu, 1 Jun 2023 15:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 15:07:17.610424
Title: Birth of a Transformer: A Memory Viewpoint
Title（参考訳）: トランスフォーマーの誕生:メモリビューポイント
Authors: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
Abstract要約: トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
参考スコア（独自算出の注目度）: 24.532841504325365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an "induction head" mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.
Abstract（参考訳）: トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。しかし、より広くデプロイされるため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要性が高まっている。これらのモデルはトレーニングデータから大量の知識を蓄積し、彼らのコンテキストやプロンプトで提供される新しい情報に迅速に適応するように見える。本研究では,グローバルあるいはコンテキスト固有なビッグラム分布からトークンが生成される合成設定を考慮し,これらの2種類の知識のバランスについて検討する。簡易な2層変圧器の訓練過程を慎重に解析することにより,大域的ビッグラムの高速学習と,テキスト内ビッグラムの「インダクションヘッド」機構の開発が遅いことを示す。重み行列の役割を連想記憶として強調し、学習中に勾配が学習を可能にするかの理論的な洞察を与え、データ分散特性の役割を研究する。

関連論文リスト

Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。現代変圧器におけるユニモーダルICLの原理を再考する。メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文参考訳（メタデータ） (2026-01-28T17:37:28Z)
Filtering with Self-Attention and Storing with MLP: One-Layer Transformers Can Provably Acquire and Extract Knowledge [2.486161976966064]
現代の大きな言語モデルは知識集約的なタスクに優れています。トランスフォーマーは、事前学習中に知識を習得(保存)し、ポストファインニング中にそれを抽出(回収)する方法は、いまだに不透明である。
論文参考訳（メタデータ） (2025-07-28T17:24:57Z)
Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文参考訳（メタデータ） (2025-01-30T15:56:25Z)
Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
Understanding Knowledge Hijack Mechanism in In-context Learning through Associative Memory [37.93644115914534]
In-context Learning (ICL) は、大規模言語モデルが微調整なしで新しいタスクに適応できるようにする。本稿では,トークン予測における文脈内情報と事前学習したビッグラム知識のバランスについて検討する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-08-08T15:33:02Z)
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文参考訳（メタデータ） (2024-05-23T21:42:19Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文参考訳（メタデータ） (2020-12-01T09:39:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。