Fugu-MT 論文翻訳(概要): PatchFormer: A Versatile 3D Transformer Based on Patch Attention

論文の概要: PatchFormer: A Versatile 3D Transformer Based on Patch Attention

arxiv url: http://arxiv.org/abs/2111.00207v1
Date: Sat, 30 Oct 2021 08:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 07:09:07.667125
Title: PatchFormer: A Versatile 3D Transformer Based on Patch Attention
Title（参考訳）: PatchFormer: パッチアテンションに基づく3D変圧器
Authors: Zhang Cheng, Haocheng Wan, Xinyi Shen, Zizhao Wu
Abstract要約: 我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
参考スコア（独自算出の注目度）: 0.358439716487063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The 3D vision community is witnesses a modeling shift from CNNs to Transformers, where pure Transformer architectures have attained top accuracy on the major 3D learning benchmarks. However, existing 3D Transformers need to generate a large attention map, which has quadratic complexity (both in space and time) with respect to input size. To solve this shortcoming, we introduce patch-attention to adaptively learn a much smaller set of bases upon which the attention maps are computed. By a weighted summation upon these bases, patch-attention not only captures the global shape context but also achieves linear complexity to input size. In addition, we propose a lightweight Multi-scale Attention (MSA) block to build attentions among features of different scales, providing the model with multi-scale features. Based on these proposed modules, we construct our neural architecture called PatchFormer. Extensive experiments demonstrate that our network achieves strong accuracy on general 3D recognition tasks with 7.3x speed-up than previous 3D Transformers.
Abstract（参考訳）: 3d visionコミュニティは、cnnからtransformerへのモデリングシフトを目撃している。しかし、既存の3Dトランスフォーマーは、入力サイズに関して2次複雑さ(空間と時間の両方)を持つ大きな注意マップを生成する必要がある。この欠点を解決するために,注意マップを計算したベースセットを適応的に学習するためにパッチアテンションを導入する。これらのベースを重みづけることで、パッチアテンションはグローバル形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。さらに,異なるスケールの特徴に注意を向ける軽量なマルチスケールアテンション(MSA)ブロックを提案し,そのモデルにマルチスケールの機能を提供する。これらの提案したモジュールに基づいて、PatchFormerと呼ばれるニューラルネットワークを構築します。我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
A Recipe for Geometry-Aware 3D Mesh Transformers [2.0992612407358293]
本研究では, ノード数可変のパッチを収容するパッチレベルで, 特徴を埋め込む手法について検討する。本研究は,1)一般的な3次元メッシュトランスフォーマにおける熱拡散による構造的および位置的埋め込みの重要性,2)学習の強化における測地的マスキングや機能的相互作用といった新しい要素の有効性,3)セグメント化と分類作業の課題における提案手法の優れた性能と効率性など,重要な知見を浮き彫りにしている。
論文参考訳（メタデータ） (2024-10-31T19:13:31Z)
SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。 SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文参考訳（メタデータ） (2024-04-15T22:12:05Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
ConDaFormer: Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。 0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文参考訳（メタデータ） (2023-12-18T11:19:45Z)
MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。 Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文参考訳（メタデータ） (2023-08-27T08:10:23Z)
Monocular Scene Reconstruction with 3D SDF Transformers [17.565474518578178]
本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
論文参考訳（メタデータ） (2023-01-31T09:54:20Z)
Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文参考訳（メタデータ） (2023-01-06T18:52:12Z)
3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (2022-08-08T17:59:11Z)
Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文参考訳（メタデータ） (2021-08-12T15:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。