論文の概要: CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects
- arxiv url: http://arxiv.org/abs/2303.15782v1
- Date: Tue, 28 Mar 2023 07:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:02:28.474046
- Title: CARTO: Category and Joint Agnostic Reconstruction of ARTiculated Objects
- Title(参考訳): CARTO:人工物体のカテゴリーと関節解剖学的再構成
- Authors: Nick Heppert, Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu,
Rares Andrei Ambrus, Jeannette Bohg, Abhinav Valada, Thomas Kollar
- Abstract要約: CARTO(CARTO)は,単一のステレオRGB観測から複数物体を再構成する手法である。
暗黙的なオブジェクト中心表現を用いて、複数のオブジェクトカテゴリに対して単一の幾何学と調音デコーダを学習する。
提案するデコーダは,各カテゴリごとに別々に学習を行う手法と同等の再現精度を達成している。
- 参考スコア(独自算出の注目度): 24.46008721878117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CARTO, a novel approach for reconstructing multiple articulated
objects from a single stereo RGB observation. We use implicit object-centric
representations and learn a single geometry and articulation decoder for
multiple object categories. Despite training on multiple categories, our
decoder achieves a comparable reconstruction accuracy to methods that train
bespoke decoders separately for each category. Combined with our stereo image
encoder we infer the 3D shape, 6D pose, size, joint type, and the joint state
of multiple unknown objects in a single forward pass. Our method achieves a
20.4% absolute improvement in mAP 3D IOU50 for novel instances when compared to
a two-stage pipeline. Inference time is fast and can run on a NVIDIA TITAN XP
GPU at 1 HZ for eight or less objects present. While only trained on simulated
data, CARTO transfers to real-world object instances. Code and evaluation data
is available at: http://carto.cs.uni-freiburg.de
- Abstract(参考訳): CARTO(CARTO)は,単一のステレオRGB観測から複数物体を再構成する手法である。
我々は暗黙のオブジェクト中心表現を使い、複数のオブジェクトカテゴリに対して単一の幾何学と調音デコーダを学習する。
複数カテゴリのトレーニングにもかかわらず,各カテゴリごとに別々に復号器を訓練する手法に比較して,復号器の再現精度が向上する。
ステレオ画像エンコーダと組み合わせることで, 3次元形状, 6次元ポーズ, サイズ, ジョイントタイプ, および単一フォワードパスにおける複数の未知物体のジョイント状態を推定する。
提案手法は,2段パイプラインと比較して,新しいインスタンスに対するmAP 3D IOU50を20.4%向上させる。
推論時間は高速で、NVIDIA TITAN XP GPUで8つ以下のオブジェクトを1HZで実行することができる。
シミュレーションデータのみをトレーニングしながら、CARTOは現実世界のオブジェクトインスタンスに転送する。
コードと評価データは以下の通りである。
関連論文リスト
- Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation [26.868351498722884]
ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
論文 参考訳(メタデータ) (2021-04-02T16:59:29Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。