論文の概要: On The Application of Linear Attention in Multimodal Transformers
- arxiv url: http://arxiv.org/abs/2604.10064v1
- Date: Sat, 11 Apr 2026 07:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.820666
- Title: On The Application of Linear Attention in Multimodal Transformers
- Title(参考訳): マルチモーダル変圧器における線形注意の適用について
- Authors: Armin Gerami, Seyedehanita Madani, Ramani Duraiswami,
- Abstract要約: マルチモーダルトランスフォーマーは最先端のビジョン言語モデルのバックボーンとして機能するが、その二次的な注意の複雑さはスケーラビリティにとって重要な障壁である。
マルチモーダルフレームワークにおける高効率な代替手段としての線形注意(LA)の実現可能性について検討する。
我々の系統的評価は,線形注意が計算量を大幅に削減するだけでなく,標準ソフトマックスの注意と同様のスケーリング法則に従うことを証明している。
- 参考スコア(独自算出の注目度): 9.10734114158633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Transformers serve as the backbone for state-of-the-art vision-language models, yet their quadratic attention complexity remains a critical barrier to scalability. In this work, we investigate the viability of Linear Attention (LA) as a high-efficiency alternative within multimodal frameworks. By integrating LA, we reduce the computational overhead from quadratic to linear relative to sequence length while preserving competitive performance. We evaluate our approach across ViT-S/16, ViT-B/16, and ViT-L/16 architectures trained on the LAION-400M dataset, with validation focused on ImageNet-21K zero-shot accuracy. Our systematic evaluation demonstrates that Linear Attention not only yields significant computational savings but also adheres to the same scaling laws as standard softmax attention. These findings position Linear Attention as a robust, scalable solution for next-generation multimodal Transformers tasked with processing increasingly large and complex datasets.
- Abstract(参考訳): マルチモーダルトランスフォーマーは最先端のビジョン言語モデルのバックボーンとして機能するが、その二次的な注意の複雑さはスケーラビリティにとって重要な障壁である。
本研究では,マルチモーダルフレームワークにおける高効率な代替手段としての線形注意(LA)の実現可能性について検討する。
LAを統合することにより、競合性能を保ちながら、計算オーバーヘッドを2次から2次から線形に削減する。
LAION-400MデータセットでトレーニングしたViT-S/16, ViT-B/16, ViT-L/16アーキテクチャ間のアプローチを評価し, ImageNet-21Kゼロショット精度に着目した検証を行った。
我々の体系的評価は,線形注意が計算量を大幅に削減するだけでなく,標準ソフトマックスの注意と同様のスケーリング法則に従うことを証明している。
これらの結果から、Linear Attentionは、ますます大規模で複雑なデータセットを処理する、次世代マルチモーダルトランスフォーマーの堅牢でスケーラブルなソリューションとして位置づけられた。
関連論文リスト
- Pieceformer: Similarity-Driven Knowledge Transfer via Scalable Graph Transformer in VLSI [10.727382706747592]
Pieceformerはスケーラブルで自己管理型の類似性評価フレームワークである。
平均絶対誤差(MAE)を24.9%削減する。
すべての実世界のデザイングループを正しくクラスタ化する唯一の方法である。
論文 参考訳(メタデータ) (2025-06-18T22:47:09Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。