論文の概要: Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention
- arxiv url: http://arxiv.org/abs/2504.08801v1
- Date: Tue, 08 Apr 2025 22:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:02.654478
- Title: Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention
- Title(参考訳): 学習可能なマルチスケールウェーブレット変換器 : 自己注意のための新しい代替手段
- Authors: Andrew Kiruluta, Priscilla Burity, Samantha Williams,
- Abstract要約: Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer architectures, underpinned by the self-attention mechanism, have achieved state-of-the-art results across numerous natural language processing (NLP) tasks by effectively modeling long-range dependencies. However, the computational complexity of self-attention, scaling quadratically with input sequence length, presents significant challenges for processing very long sequences or operating under resource constraints. This paper introduces the Learnable Multi-Scale Wavelet Transformer (LMWT), a novel architecture that replaces the standard dot-product self-attention with a learnable multi-scale Haar wavelet transform module. Leveraging the intrinsic multi-resolution properties of wavelets, the LMWT efficiently captures both local details and global context. Crucially, the parameters of the wavelet transform, including scale-specific coefficients, are learned end-to-end during training, allowing the model to adapt its decomposition strategy to the data and task. We present the detailed mathematical formulation of the learnable Haar wavelet module and its integration into the transformer framework, supplemented by an architectural diagram. We conduct a comprehensive experimental evaluation on a standard machine translation benchmark (WMT16 En-De), comparing the LMWT against a baseline self-attention transformer using metrics like BLEU score, perplexity, and token accuracy. Furthermore, we analyze the computational complexity, highlighting the linear scaling of our approach, discuss its novelty in the context of related work, and explore the interpretability offered by visualizing the learned Haar coefficients. Our results indicate that the LMWT achieves competitive performance while offering substantial computational advantages, positioning it as a promising and novel alternative for efficient sequence modeling.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、自己認識機構を基盤として、多くの自然言語処理(NLP)タスクに対して、長距離依存を効果的にモデル化することで、最先端の結果を達成している。
しかし、入力シーケンス長で二次的にスケーリングする自己注意の計算複雑性は、非常に長いシーケンスを処理したり、リソース制約の下で操作する上で大きな課題となる。
本稿では,標準的なドット積自己アテンションを学習可能なマルチスケールHaarウェーブレット変換モジュールに置き換える新しいアーキテクチャであるLMWTを紹介する。
ウェーブレットの固有多分解能特性を利用して、LMWTは局所的な詳細とグローバルな文脈の両方を効率的に捉える。
重要なことに、スケール特異的係数を含むウェーブレット変換のパラメータは、トレーニング中にエンドツーエンドに学習され、モデルがその分解戦略をデータとタスクに適応させることができる。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化と,アーキテクチャ図で補足されたトランスフォーマーフレームワークへの統合について述べる。
我々は,標準機械翻訳ベンチマーク(WMT16 En-De)において,BLEUスコア,パープレキシティ,トークン精度などの指標を用いて,LMWTとベースライン自己注意変換器を比較し,総合的な実験評価を行った。
さらに、計算複雑性を分析し、我々のアプローチの線形スケーリングを強調し、関連する作業の文脈でその新規性を議論し、学習されたハール係数を可視化することによって得られる解釈可能性について検討する。
この結果から,LMWTは,効率の良いシーケンスモデリングのための有望で斬新な代替手段として位置づけられながら,計算上の優位性を保ちながら,競争性能を達成することが示唆された。
関連論文リスト
- PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting [0.0]
近年,Transformer アーキテクチャを改良し,長期連続予測タスクの有効性を実証する研究が進められている。
これらのモデルの有効性は, 適用されたパッチ機構に大きく寄与する。
LTSFタスクのための新しいシンプルなパッチベースコンポーネント(PatchMLP)を提案する。
論文 参考訳(メタデータ) (2024-05-22T12:12:20Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。