論文の概要: Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens
in 3D Space
- arxiv url: http://arxiv.org/abs/2206.11895v1
- Date: Thu, 23 Jun 2022 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:13:57.848655
- Title: Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens
in 3D Space
- Title(参考訳): 3次元空間におけるトークンの復元による視点非依存視覚表現の学習
- Authors: Jinghuan Shang, Srijan Das, Michael S. Ryoo
- Abstract要約: 人間は3次元構造の知覚を支える視覚野による視点変化の理解に非常に柔軟である。
2D画像のプールから視覚表現を学習するほとんどのコンピュータビジョンモデルは、しばしば新しいカメラの視点を一般化するのに失敗する。
視覚トークンの3次元位置情報を推定し,視点に依存しない表現の学習に利用する3次元トークン表現層(3DTRL)を提案する。
- 参考スコア(独自算出の注目度): 43.24893612436651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are remarkably flexible in understanding viewpoint changes due to
visual cortex supporting the perception of 3D structure. In contrast, most of
the computer vision models that learn visual representation from a pool of 2D
images often fail to generalize over novel camera viewpoints. Recently, the
vision architectures have shifted towards convolution-free architectures,
visual Transformers, which operate on tokens derived from image patches.
However, neither these Transformers nor 2D convolutional networks perform
explicit operations to learn viewpoint-agnostic representation for visual
understanding. To this end, we propose a 3D Token Representation Layer (3DTRL)
that estimates the 3D positional information of the visual tokens and leverages
it for learning viewpoint-agnostic representations. The key elements of 3DTRL
include a pseudo-depth estimator and a learned camera matrix to impose
geometric transformations on the tokens. These enable 3DTRL to recover the 3D
positional information of the tokens from 2D patches. In practice, 3DTRL is
easily plugged-in into a Transformer. Our experiments demonstrate the
effectiveness of 3DTRL in many vision tasks including image classification,
multi-view video alignment, and action recognition. The models with 3DTRL
outperform their backbone Transformers in all the tasks with minimal added
computation. Our project page is at
https://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.html
- Abstract(参考訳): 人間は3次元構造の知覚を支える視覚野による視点変化の理解に非常に柔軟である。
対照的に、2D画像のプールから視覚表現を学習するコンピュータビジョンモデルの多くは、新しいカメラ視点を一般化するのに失敗することが多い。
近年、視覚アーキテクチャは、画像パッチから派生したトークンを操作する畳み込みフリーアーキテクチャである視覚トランスフォーマーへとシフトしている。
しかし、これらのトランスフォーマーや2次元畳み込みネットワークは、視覚的理解のために視点に依存しない表現を学ぶために明示的な操作を行わない。
この目的のために,視覚トークンの3次元位置情報を推定し,視点非依存表現の学習に活用する3次元トークン表現層(3dtrl)を提案する。
3DTRLの鍵となる要素は、トークンに幾何変換を課すための擬似深度推定器と学習カメラマトリックスである。
これにより、3DTRLはトークンの3D位置情報を2Dパッチから復元できる。
実際には、3DTRL は Transformer に簡単にプラグインされる。
画像分類,多視点映像アライメント,行動認識など,視覚タスクにおける3DTRLの有効性を実証した。
3DTRLのモデルは、最小限の計算量ですべてのタスクにおいてバックボーントランスフォーマーより優れている。
私たちのプロジェクトページはhttps://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.htmlです。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - On the Efficacy of 3D Point Cloud Reinforcement Learning [20.4424883945357]
私たちは、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目しています。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
エージェント・オブジェクト/オブジェクト・オブジェクトの関係エンコーディングが重要な要素である場合、3DポイントクラウドRLは2Dよりも大幅に優れることがわかった。
論文 参考訳(メタデータ) (2023-06-11T22:52:08Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。