論文の概要: DeepCrossAttention: Supercharging Transformer Residual Connections
- arxiv url: http://arxiv.org/abs/2502.06785v1
- Date: Mon, 10 Feb 2025 18:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:23.584292
- Title: DeepCrossAttention: Supercharging Transformer Residual Connections
- Title(参考訳): DeepCrossAttention: Supercharging Transformer Residual Connection
- Authors: Mike Heddes, Adel Javanmard, Kyriakos Axiotis, Gang Fu, MohammadHossein Bateni, Vahab Mirrokni,
- Abstract要約: この研究は、変圧器の残留学習を強化するアプローチであるDeepCrossAttention (DCA)を導入している。
DCAは、層出力を動的に結合するために、学習可能な入力依存の重みを用いる。
言語モデル実験により, DCA はトレーニング時間に改良されたパープレキシティを達成できることが示された。
- 参考スコア(独自算出の注目度): 23.210353610183954
- License:
- Abstract: Transformer networks have achieved remarkable success across diverse domains, leveraging a variety of architectural innovations, including residual connections. However, traditional residual connections, which simply sum the outputs of previous layers, can dilute crucial information. This work introduces DeepCrossAttention (DCA), an approach that enhances residual learning in transformers. DCA employs learnable, input-dependent weights to dynamically combine layer outputs, enabling the model to selectively focus on the most relevant information in any of the previous layers. Furthermore, DCA incorporates depth-wise cross-attention, allowing for richer interactions between layers at different depths. Our language modeling experiments show that DCA achieves improved perplexity for a given training time. Moreover, DCA obtains the same model quality up to 3x faster while adding a negligible number of parameters. Theoretical analysis confirms that DCA provides an improved trade-off between accuracy and model size when the ratio of collective layer ranks to the ambient dimension falls below a critical threshold.
- Abstract(参考訳): トランスフォーマーネットワークは、残余接続を含む様々なアーキテクチャ革新を活用して、様々な領域で顕著な成功を収めてきた。
しかし、従来の残余接続は、単に前のレイヤの出力を要約するだけで、重要な情報を希薄化することができる。
この研究は、変圧器の残留学習を強化するアプローチであるDeepCrossAttention (DCA)を導入している。
DCAは、層出力を動的に結合するために学習可能な入力依存重みを使用し、モデルが前のどの層でも最も関連性の高い情報に選択的にフォーカスできるようにする。
さらに、DCAはディープワイドなクロスアテンションを導入し、異なるディープで層間のよりリッチな相互作用を可能にする。
言語モデル実験により, DCA はトレーニング時間に改良されたパープレキシティを達成できることが示された。
さらに、DCAは同じモデル品質を最大3倍高速に取得し、パラメータの無視数を加算する。
理論的解析により、DCAは、集合層と周囲次元の比が臨界しきい値以下である場合に、精度とモデルサイズの間のトレードオフが改善されていることが確認される。
関連論文リスト
- Radial Networks: Dynamic Layer Routing for High-Performance Large Language Models [9.637088945386227]
大規模言語モデル(LLM)は、しばしば厳しいメモリ、レイテンシ、電力需要に悩まされる。
インプット・バイ・インプット・ベースで計算を削減できる様々なダイナミック・スパシティーが提案されている。
トレーニングされたルータモジュールによってガイドされる層間のトークンレベルのルーティングを行うRadar Networksを提案する。
論文 参考訳(メタデータ) (2024-04-07T09:52:31Z) - DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging [34.643717080240584]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Deep Combinatorial Aggregation [58.78692706974121]
ディープアンサンブル(Deep ensemble)は、不確実性を考慮した学習タスクの最先端結果を実現する、シンプルで効果的な方法である。
本研究では,ディープアグリゲーション(DCA)と呼ばれるディープアンサンブルの一般化について検討する。
DCAはネットワークコンポーネントの複数のインスタンスを生成し、それらの組み合わせを集約して、多様化したモデルの提案と予測を生成する。
論文 参考訳(メタデータ) (2022-10-12T17:35:03Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z) - Multiresolution Convolutional Autoencoders [5.0169726108025445]
本稿では,3つの数学的アーキテクチャを統合し,活用する多分解能畳み込みオートエンコーダアーキテクチャを提案する。
基礎学習技術を適用して、以前のトレーニングステップから学んだ情報を、より大規模なネットワークに迅速に転送できるようにする。
合成例と実世界の空間データに関する数値実験により,性能向上を図示する。
論文 参考訳(メタデータ) (2020-04-10T08:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。