論文の概要: Perceiving Longer Sequences With Bi-Directional Cross-Attention
Transformers
- arxiv url: http://arxiv.org/abs/2402.12138v1
- Date: Mon, 19 Feb 2024 13:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:24:13.437265
- Title: Perceiving Longer Sequences With Bi-Directional Cross-Attention
Transformers
- Title(参考訳): 双方向クロスアテンション変換器による長周期知覚
- Authors: Markus Hiller, Krista A. Ehinger, Tom Drummond
- Abstract要約: BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
- 参考スコア(独自算出の注目度): 15.150460618892405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel bi-directional Transformer architecture (BiXT) which
scales linearly with input size in terms of computational cost and memory
consumption, but does not suffer the drop in performance or limitation to only
one input modality seen with other efficient Transformer-based approaches. BiXT
is inspired by the Perceiver architectures but replaces iterative attention
with an efficient bi-directional cross-attention module in which input tokens
and latent variables attend to each other simultaneously, leveraging a
naturally emerging attention-symmetry between the two. This approach unlocks a
key bottleneck experienced by Perceiver-like architectures and enables the
processing and interpretation of both semantics (`what') and location (`where')
to develop alongside each other over multiple layers -- allowing its direct
application to dense and instance-based tasks alike. By combining efficiency
with the generality and performance of a full Transformer architecture, BiXT
can process longer sequences like point clouds or images at higher feature
resolutions and achieves competitive performance across a range of tasks like
point cloud part segmentation, semantic image segmentation and image
classification.
- Abstract(参考訳): 計算コストとメモリ消費の面では入力サイズと線形にスケールするが、他の効率的なトランスベースアプローチで見られる1つの入力モダリティのみの性能や制限を損なわない、新しい双方向トランスフォーマーアーキテクチャ(bixt)を提案する。
BiXTはPerceiverアーキテクチャにインスパイアされているが、繰り返しの注意を、入力トークンと潜伏変数が同時に参加する効率的な双方向の横断モジュールに置き換え、両者の間に自然に現れる注意対称性を活用する。
このアプローチは、perceiverのようなアーキテクチャによって経験される重要なボトルネックを解き放ち、セマンティクス(`what')とロケーション(`where')の両方の処理と解釈を、複数のレイヤにまたがって開発することを可能にします。
効率性とフルトランスフォーマーアーキテクチャの汎用性とパフォーマンスを組み合わせることで、BiXTはポイントクラウドやイメージなどの長いシーケンスを高い機能解像度で処理し、ポイントクラウド部分のセグメンテーション、セマンティックイメージのセグメンテーション、イメージ分類といったタスクで競合的なパフォーマンスを達成することができる。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z) - Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding [40.322453628755376]
一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-05-19T02:42:35Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。