Fugu-MT 論文翻訳(概要): Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers

論文の概要: Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers

arxiv url: http://arxiv.org/abs/2411.12118v1
Date: Mon, 18 Nov 2024 23:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.950512
Title: Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers
Title（参考訳）: 多層変圧器における積層アテンションヘッドの機構と創発
Authors: Tiberiu Musat,
Abstract要約: 最小限の層数を持つ変圧器でのみ解決できる単純な推論タスクである検索問題を紹介します。大規模な言語モデルは、微調整をせずに、異なるプロンプト式でタスクを解くことができることを実証する。学習の成功は暗黙のカリキュラムの存在下でのみ起こります。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, I introduce the retrieval problem, a simple reasoning task that can be solved only by transformers with a minimum number of layers. The task has an adjustable difficulty that can further increase the required number of layers to any arbitrary value. I demonstrate that large language models can solve the task under different prompting formulations without any fine-tuning. To understand how transformers solve the retrieval problem, I train several transformers on a minimal formulation. I find that successful learning occurs only under the presence of an implicit curriculum. I uncover the learned mechanisms by studying the attention maps in the trained transformers. I also study the training process, uncovering that attention heads always emerge in a specific sequence.
Abstract（参考訳）: 本稿では,最小数の層を持つ変圧器でのみ解ける簡単な推論タスクである検索問題を紹介する。このタスクは調整可能な難易度を持ち、必要なレイヤ数を任意の値に増やすことができる。大規模な言語モデルは、微調整をせずに、異なるプロンプト式でタスクを解くことができることを実証する。検索問題に対する変換器の解法を理解するため,最小限の定式化で複数の変換器を訓練する。学習の成功は暗黙のカリキュラムの存在下でのみ起こります。訓練された変圧器のアテンションマップを学習することで学習メカニズムを明らかにする。トレーニングプロセスも研究し、注意の頭が常に特定のシーケンスで現れることを明らかにする。

関連論文リスト

One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文参考訳（メタデータ） (2024-10-08T13:43:50Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
When Can Transformers Count to n? [48.32323039293186]
本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。サイズ制限された変圧器がこのタスクを実装することが不可能な理由を理論的に論じる。本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。
論文参考訳（メタデータ） (2024-07-21T13:31:02Z)
What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文参考訳（メタデータ） (2024-04-02T02:45:12Z)
How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文参考訳（メタデータ） (2024-02-22T17:47:03Z)
Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems [27.681141346132286]
多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討した。合成タスクを用いて問題を詳細に研究するが、言語モデリングや文脈内学習にも性能の飛躍が観察できる。我々は,言語モデリングとICLの訓練を改善するために,合成多段階タスクを改善するためのコネクションを見つけ,その方法を示す。
論文参考訳（メタデータ） (2023-10-19T17:55:06Z)
Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文参考訳（メタデータ） (2021-08-10T13:08:34Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文参考訳（メタデータ） (2020-06-18T04:24:28Z)
Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文参考訳（メタデータ） (2020-02-24T13:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。