論文の概要: Wavy Transformer
- arxiv url: http://arxiv.org/abs/2508.12787v1
- Date: Mon, 18 Aug 2025 10:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.174373
- Title: Wavy Transformer
- Title(参考訳): Wavy Transformer
- Authors: Satoshi Noguchi, Yoshinobu Kawahara,
- Abstract要約: 本稿では,第2次波動力学に基づく新しい注目層を構成するWavy Transformerを提案する。
また,チェーンルールの下での物理的状態-速度関係を維持するために,フィードフォワードネットワークと正規化層を導入する。
- 参考スコア(独自算出の注目度): 5.70377027915918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved remarkable success across natural language processing (NLP) and computer vision (CV). However, deep transformer models often suffer from an over-smoothing issue, in which token representations converge to similar values as they pass through successive transformer blocks. In this paper, we establish an equivalence between the hidden-state dynamics induced by stacked attention layers and graph neural diffusion on a complete graph. From this perspective, over-smoothing can be interpreted as a consequence of the dissipative nature of the underlying diffusion dynamics. Motivated by this physical interpretation, we propose Wavy Transformer, which consists of a novel attention layer based on second-order wavy dynamics. We also introduce a feed-forward network and a normalization layer designed to preserve the physical state-velocity relationship under the chain rule, thereby extending the transformer architecture. We further validate our proposed techniques on various transformer models for NLP and CV tasks. The results consistently demonstrate that Wavy Transformer improves performance with minimal additional parameters and no extra hyperparameter tuning.
- Abstract(参考訳): トランスフォーマーは自然言語処理(NLP)とコンピュータビジョン(CV)で大きな成功を収めている。
しかし、ディープトランスモデルは、トークン表現が連続するトランスフォーマーブロックを通過するときに類似した値に収束するという過度な問題に悩まされることが多い。
本稿では,重み付き注意層によって誘導される隠れ状態のダイナミクスと,完全グラフ上でのグラフ神経拡散の等価性を確立する。
この観点からすると、過平滑化は基礎となる拡散力学の散逸の性質の結果として解釈できる。
この物理解釈に触発されて、二階波動力学に基づく新しい注意層からなるWavy Transformerを提案する。
また,チェーンルールの下での物理的状態-速度関係を維持するために,フィードフォワードネットワークと正規化層を導入し,トランスフォーマーアーキテクチャを拡張した。
さらに,NLPおよびCVタスクのためのトランスモデルについて,提案手法の有効性を検証した。
結果は、Wavy Transformerが最小限の追加パラメータと余分なハイパーパラメータチューニングなしで性能を向上させることを一貫して示している。
関連論文リスト
- Transformers without Normalization [58.778767721826206]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-13T17:59:06Z) - Flowing Through Layers: A Continuous Dynamical Systems Perspective on Transformers [0.0]
本稿では,変圧器の標準離散更新規則を連続力学系の前方オイラー離散化として自然に解釈できることを示す。
我々のTransformer Flow Approximation Theoremは、標準的なリプシッツ連続性仮定の下で、トークン表現が、層の数が増えるにつれてODEのユニークな解に一様収束することを示した。
論文 参考訳(メタデータ) (2025-02-08T18:11:40Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。