論文の概要: MVT: Multi-view Vision Transformer for 3D Object Recognition
- arxiv url: http://arxiv.org/abs/2110.13083v1
- Date: Mon, 25 Oct 2021 16:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:38:09.074553
- Title: MVT: Multi-view Vision Transformer for 3D Object Recognition
- Title(参考訳): MVT:3次元物体認識のための多視点視覚変換器
- Authors: Shuo Chen, Tan Yu, Ping Li
- Abstract要約: 3次元物体認識のための多視点視覚変換器(MVT)を提案する。
Transformerブロック内の各パッチ機能は、グローバルな受信フィールドを持つため、異なるビューからのパッチ間の通信を自然に達成する。
ModelNet40 と ModelNet10 の2つの公開ベンチマーク実験では,MVT の競合性能が実証された。
- 参考スコア(独自算出の注目度): 27.78356525281462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the great success achieved by CNN in image recognition,
view-based methods applied CNNs to model the projected views for 3D object
understanding and achieved excellent performance. Nevertheless, multi-view CNN
models cannot model the communications between patches from different views,
limiting its effectiveness in 3D object recognition. Inspired by the recent
success gained by vision Transformer in image recognition, we propose a
Multi-view Vision Transformer (MVT) for 3D object recognition. Since each patch
feature in a Transformer block has a global reception field, it naturally
achieves communications between patches from different views. Meanwhile, it
takes much less inductive bias compared with its CNN counterparts. Considering
both effectiveness and efficiency, we develop a global-local structure for our
MVT. Our experiments on two public benchmarks, ModelNet40 and ModelNet10,
demonstrate the competitive performance of our MVT.
- Abstract(参考訳): 画像認識においてCNNが達成した大きな成功にインスパイアされたビューベース手法は、投影されたビューを3次元オブジェクト理解のためにモデル化し、優れた性能を実現した。
にもかかわらず、マルチビューCNNモデルは異なるビューからのパッチ間の通信をモデル化することができず、3Dオブジェクト認識の有効性を制限している。
画像認識における視覚変換器の最近の成功に触発されて,3次元物体認識のための多視点視覚変換器(MVT)を提案する。
Transformerブロック内の各パッチ機能はグローバルな受信フィールドを持つため、異なるビューからのパッチ間の通信を自然に達成する。
一方、CNNと比べて誘導バイアスはずっと少ない。
有効性と効率の両面から,MVTのグローバルな局所構造を構築した。
ModelNet40 と ModelNet10 の2つの公開ベンチマーク実験では,MVT の競合性能が実証された。
関連論文リスト
- Large-kernel Attention for Efficient and Robust Brain Lesion
Segmentation [0.08694241595813026]
本稿では,U-Netアーキテクチャの完全畳み込み型トランスフォーマーブロックを提案する。
我々のモデルは,最先端技術との競争,CNNのパラメータ効率,変圧器の帰納バイアスの3つの要因において,最大の妥協を提供する。
論文 参考訳(メタデータ) (2023-08-14T16:38:13Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - MVTN: Multi-View Transformation Network for 3D Shape Recognition [80.34385402179852]
本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
論文 参考訳(メタデータ) (2020-11-26T11:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。