論文の概要: Factorization Vision Transformer: Modeling Long Range Dependency with
Local Window Cost
- arxiv url: http://arxiv.org/abs/2312.08614v1
- Date: Thu, 14 Dec 2023 02:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:08:25.157774
- Title: Factorization Vision Transformer: Modeling Long Range Dependency with
Local Window Cost
- Title(参考訳): Factorization Vision Transformer:ローカルウィンドウコストによる長距離依存性のモデル化
- Authors: Haolin Qin, Daquan Zhou, Tingfa Xu, Ziyang Bian, Jianan Li
- Abstract要約: 本稿では,ローカルウィンドウコストと長期依存性モデリング機能の両方の利点を享受できる因子分解自己注意機構を提案する。
FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。
FaViT-B2は, モデルパラメータを14%削減しつつ, 分類精度を1%, 頑健性を7%向上させる。
- 参考スコア(独自算出の注目度): 25.67071603343174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have astounding representational power but typically consume
considerable computation which is quadratic with image resolution. The
prevailing Swin transformer reduces computational costs through a local window
strategy. However, this strategy inevitably causes two drawbacks: (1) the local
window-based self-attention hinders global dependency modeling capability; (2)
recent studies point out that local windows impair robustness. To overcome
these challenges, we pursue a preferable trade-off between computational cost
and performance. Accordingly, we propose a novel factorization self-attention
mechanism (FaSA) that enjoys both the advantages of local window cost and
long-range dependency modeling capability. By factorizing the conventional
attention matrix into sparse sub-attention matrices, FaSA captures long-range
dependencies while aggregating mixed-grained information at a computational
cost equivalent to the local window-based self-attention. Leveraging FaSA, we
present the factorization vision transformer (FaViT) with a hierarchical
structure. FaViT achieves high performance and robustness, with linear
computational complexity concerning input image spatial resolution. Extensive
experiments have shown FaViT's advanced performance in classification and
downstream tasks. Furthermore, it also exhibits strong model robustness to
corrupted and biased data and hence demonstrates benefits in favor of practical
applications. In comparison to the baseline model Swin-T, our FaViT-B2
significantly improves classification accuracy by 1% and robustness by 7%,
while reducing model parameters by 14%. Our code will soon be publicly
available at https://github.com/q2479036243/FaViT.
- Abstract(参考訳): トランスフォーマーは並外れた表現力を持つが、通常は画像解像度と二次的なかなりの計算を消費する。
一般的なSwin変換器は、ローカルウィンドウ戦略により計算コストを削減する。
しかし、この戦略は必然的に2つの欠点を生じさせる:(1)ローカルウィンドウベースの自己注意は、グローバルな依存性モデリング能力を妨げる;(2)最近の研究は、ローカルウィンドウが堅牢性を損なうことを指摘している。
これらの課題を克服するため,我々は計算コストと性能のトレードオフを追求する。
そこで,我々は,ローカルウィンドウコストと長距離依存性モデリング能力の利点を享受する新しい因子化自己着機構(fasa)を提案する。
従来の注目行列をスパースサブアテンション行列に分解することにより、FaSAは、局所ウィンドウベースの自己アテンションと同等の計算コストで混合きめの情報を集約しながら、長距離依存をキャプチャする。
FaSAを応用し,階層構造を持つ因子化ビジョントランス (FaViT) を提案する。
FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。
大規模な実験では、分類および下流タスクにおけるFaViTの高度な性能が示されている。
さらに、破損したデータや偏りのあるデータに対して強いモデルロバスト性を示し、実用的なアプリケーションを好む利点を示す。
ベースラインモデルSwin-Tと比較して,FaViT-B2は分類精度を1%,頑健度を7%向上し,モデルパラメータを14%削減した。
私たちのコードは近くhttps://github.com/q2479036243/favitで公開される予定だ。
関連論文リスト
- LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。