論文の概要: 3D Vision with Transformers: A Survey
- arxiv url: http://arxiv.org/abs/2208.04309v1
- Date: Mon, 8 Aug 2022 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:45:23.910977
- Title: 3D Vision with Transformers: A Survey
- Title(参考訳): トランスフォーマーを用いた3Dビジョン:サーベイ
- Authors: Jean Lahoud, Jiale Cao, Fahad Shahbaz Khan, Hisham Cholakkal, Rao
Muhammad Anwer, Salman Khan, Ming-Hsuan Yang
- Abstract要約: 自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
- 参考スコア(独自算出の注目度): 114.86385193388439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of the transformer architecture in natural language processing
has recently triggered attention in the computer vision field. The transformer
has been used as a replacement for the widely used convolution operators, due
to its ability to learn long-range dependencies. This replacement was proven to
be successful in numerous tasks, in which several state-of-the-art methods rely
on transformers for better learning. In computer vision, the 3D field has also
witnessed an increase in employing the transformer for 3D convolution neural
networks and multi-layer perceptron networks. Although a number of surveys have
focused on transformers in vision in general, 3D vision requires special
attention due to the difference in data representation and processing when
compared to 2D vision. In this work, we present a systematic and thorough
review of more than 100 transformers methods for different 3D vision tasks,
including classification, segmentation, detection, completion, pose estimation,
and others. We discuss transformer design in 3D vision, which allows it to
process data with various 3D representations. For each application, we
highlight key properties and contributions of proposed transformer-based
methods. To assess the competitiveness of these methods, we compare their
performance to common non-transformer methods on 12 3D benchmarks. We conclude
the survey by discussing different open directions and challenges for
transformers in 3D vision. In addition to the presented papers, we aim to
frequently update the latest relevant papers along with their corresponding
implementations at: https://github.com/lahoud/3d-vision-transformers.
- Abstract(参考訳): 自然言語処理におけるトランスフォーマーアーキテクチャの成功は、近年コンピュータビジョンの分野で注目を集めている。
この変圧器は長距離依存を学習できるため、広く使われている畳み込み演算子の代替として用いられてきた。
この置換は多くのタスクで成功し、いくつかの最先端の手法はより良い学習のためにトランスフォーマーに依存している。
コンピュータビジョンにおいて、3Dフィールドはまた、3D畳み込みニューラルネットワークと多層パーセプトロンネットワークにトランスフォーマーを使用することの増加を目撃している。
視覚におけるトランスフォーマーに焦点を絞った調査は数多く行われているが、データ表現と処理の違いから、3Dビジョンは特に注意が必要である。
本研究では,分類,セグメンテーション,検出,完了,ポーズ推定などの異なる3次元視覚タスクに対して,100以上のトランスフォーマー手法を体系的かつ徹底的に検討する。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
各アプリケーションについて,提案するトランスフォーマー方式の重要な特性と貢献を強調する。
これらの手法の競争性を評価するため,12の3次元ベンチマークにおいて,一般的な非変圧器法と比較した。
3次元視覚におけるトランスフォーマーの様々な方向と課題を議論し、調査を締めくくった。
提示された論文に加えて、最新の関連する論文を、対応する実装と共に頻繁に更新することを目指している。
関連論文リスト
- Efficient 3D Object Reconstruction using Visual Transformers [4.670344336401625]
我々は3次元オブジェクト再構成における畳み込みの代わりに視覚変換器を使うことにした。
変換器ベースのエンコーダとデコーダを用いて2次元画像から3次元構造を予測し,ベースラインアプローチと同じような精度または優れた精度を実現する。
論文 参考訳(メタデータ) (2023-02-16T18:33:25Z) - Transformers in 3D Point Clouds: A Survey [27.784721081318935]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。
本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2022-05-16T01:32:18Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。