論文の概要: PatchFormer: A Versatile 3D Transformer Based on Patch Attention
- arxiv url: http://arxiv.org/abs/2111.00207v1
- Date: Sat, 30 Oct 2021 08:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 07:09:07.667125
- Title: PatchFormer: A Versatile 3D Transformer Based on Patch Attention
- Title(参考訳): PatchFormer: パッチアテンションに基づく3D変圧器
- Authors: Zhang Cheng, Haocheng Wan, Xinyi Shen, Zizhao Wu
- Abstract要約: 我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
- 参考スコア(独自算出の注目度): 0.358439716487063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3D vision community is witnesses a modeling shift from CNNs to
Transformers, where pure Transformer architectures have attained top accuracy
on the major 3D learning benchmarks. However, existing 3D Transformers need to
generate a large attention map, which has quadratic complexity (both in space
and time) with respect to input size. To solve this shortcoming, we introduce
patch-attention to adaptively learn a much smaller set of bases upon which the
attention maps are computed. By a weighted summation upon these bases,
patch-attention not only captures the global shape context but also achieves
linear complexity to input size. In addition, we propose a lightweight
Multi-scale Attention (MSA) block to build attentions among features of
different scales, providing the model with multi-scale features. Based on these
proposed modules, we construct our neural architecture called PatchFormer.
Extensive experiments demonstrate that our network achieves strong accuracy on
general 3D recognition tasks with 7.3x speed-up than previous 3D Transformers.
- Abstract(参考訳): 3d visionコミュニティは、cnnからtransformerへのモデリングシフトを目撃している。
しかし、既存の3Dトランスフォーマーは、入力サイズに関して2次複雑さ(空間と時間の両方)を持つ大きな注意マップを生成する必要がある。
この欠点を解決するために,注意マップを計算したベースセットを適応的に学習するためにパッチアテンションを導入する。
これらのベースを重みづけることで、パッチアテンションはグローバル形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
さらに,異なるスケールの特徴に注意を向ける軽量なマルチスケールアテンション(MSA)ブロックを提案し,そのモデルにマルチスケールの機能を提供する。
これらの提案したモジュールに基づいて、PatchFormerと呼ばれるニューラルネットワークを構築します。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [23.055953867959744]
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5ソリューションで1.5ミリ秒と2.8ミリ秒のレイテンシを実現します。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Monocular Scene Reconstruction with 3D SDF Transformers [17.565474518578178]
本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
論文 参考訳(メタデータ) (2023-01-31T09:54:20Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric
Guidance [22.39628991021092]
本稿では,3次元スパースボクセルトランスのためのCodedVTR(Codebook-based Voxel TRansformer)を提案する。
一方、学習可能なコードブックにおける「プロトタイプ」の組み合わせで表されるサブ空間に注意空間を投影するコードブックベースの注意を提案する。
一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を誘導する幾何学的自己注意を提案する。
論文 参考訳(メタデータ) (2022-03-18T11:50:25Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。