論文の概要: RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers
- arxiv url: http://arxiv.org/abs/2203.13296v1
- Date: Thu, 24 Mar 2022 18:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:00:38.634444
- Title: RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers
- Title(参考訳): RayTran: レイトレーシングトランスを用いたビデオからの複数物体の3次元ポーズ推定と形状再構成
- Authors: Micha{\l} J. Tyszkiewicz, Kevis-Kokitsi Maninis, Stefan Popov,
Vittorio Ferrari
- Abstract要約: RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
- 参考スコア(独自算出の注目度): 41.499325832227626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a transformer-based neural network architecture for multi-object
3D reconstruction from RGB videos. It relies on two alternative ways to
represent its knowledge: as a global 3D grid of features and an array of
view-specific 2D grids. We progressively exchange information between the two
with a dedicated bidirectional attention mechanism. We exploit knowledge about
the image formation process to significantly sparsify the attention weight
matrix, making our architecture feasible on current hardware, both in terms of
memory and computation. We attach a DETR-style head on top of the 3D feature
grid in order to detect the objects in the scene and to predict their 3D pose
and 3D shape. Compared to previous methods, our architecture is single stage,
end-to-end trainable, and it can reason holistically about a scene from
multiple video frames without needing a brittle tracking step. We evaluate our
method on the challenging Scan2CAD dataset, where we outperform (1) recent
state-of-the-art methods for 3D object pose estimation from RGB videos; and (2)
a strong alternative method combining Multi-view Stereo with RGB-D CAD
alignment. We plan to release our source code.
- Abstract(参考訳): RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
グローバルな3Dグリッド機能と、ビュー固有の2Dグリッドの配列である。
我々は, 双方向の注意機構を用いて, 情報交換を行う。
画像形成プロセスに関する知識を活用して,注意重み行列を著しく軽減し,メモリと計算の両面で現在のハードウェア上でアーキテクチャを実現可能にする。
シーン内の物体を検知し,その3次元ポーズと3次元形状を予測するために,DreTR型ヘッドを3次元特徴格子の上に取り付ける。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能であり、不安定なトラッキングステップを必要とせずに、複数のビデオフレームからのシーンを論理的に考えることができる。
我々は,1)RGBビデオからの3Dオブジェクトのポーズ推定のための最新の最先端手法,(2)RGB-DCADアライメントとマルチビューステレオを組み合わせた強力な代替手法を,Scan2CADデータセット上で評価した。
私たちはソースコードをリリースする予定です。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。