論文の概要: One-layer transformers fail to solve the induction heads task
- arxiv url: http://arxiv.org/abs/2408.14332v1
- Date: Mon, 26 Aug 2024 15:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:41:26.202596
- Title: One-layer transformers fail to solve the induction heads task
- Title(参考訳): 1層変圧器は誘導ヘッドタスクを解くのに失敗する
- Authors: Clayton Sanford, Daniel Hsu, Matus Telgarsky,
- Abstract要約: 単純な通信複雑性の議論は、2層変圧器のサイズが2層変圧器に十分な大きさより指数関数的に大きくない限り、1層変圧器が誘導ヘッドタスクを解くことができないことを証明している。
- 参考スコア(独自算出の注目度): 29.94917448270764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A simple communication complexity argument proves that no one-layer transformer can solve the induction heads task unless its size is exponentially larger than the size sufficient for a two-layer transformer.
- Abstract(参考訳): 単純な通信複雑性の議論は、2層変圧器のサイズが2層変圧器に十分な大きさより指数関数的に大きくない限り、1層変圧器が誘導ヘッドタスクを解くことができないことを証明している。
関連論文リスト
- Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers [0.0]
最小限の層数を持つ変圧器でのみ解決できる単純な推論タスクである検索問題を紹介します。
大規模な言語モデルは、微調整をせずに、異なるプロンプト式でタスクを解くことができることを実証する。
学習の成功は暗黙のカリキュラムの存在下でのみ起こります。
論文 参考訳(メタデータ) (2024-11-18T23:12:13Z) - When Can Transformers Count to n? [48.32323039293186]
本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。
サイズ制限された変圧器がこのタスクを実装することが不可能な理由を理論的に論じる。
本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。
論文 参考訳(メタデータ) (2024-07-21T13:31:02Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - DDT: Dual-branch Deformable Transformer for Image Denoising [6.596462333804802]
Transformerは、帰納的畳み込みバイアスによって引き起こされる制限を克服するために、長距離依存をモデル化できるため、画像記述タスクに有用である。
本稿では,DDT(Dual-branch Deformable Transformer)とDDT(Dual-branch Deformable Transformer)を並列に処理するネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T08:54:44Z) - Transformer Utilization in Medical Image Segmentation Networks [1.4764524377532229]
本稿では,Transformerブロックを線形演算子に置き換えて有効性を定量化するTransformer Ablationを提案する。
2つの医用画像セグメンテーションタスクに関する8つのモデルの実験により、1)トランスフォーマー-リアント表現の置き換え可能な性質、2)トランスフォーマーのキャパシティだけでは表現上の置換を防げないこと、3)トランスフォーマーブロックにおける明示的な特徴階層の存在は、自己認識モジュールに付随するよりも有益である。
論文 参考訳(メタデータ) (2023-04-09T12:35:22Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。