論文の概要: MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos
- arxiv url: http://arxiv.org/abs/2012.05360v2
- Date: Mon, 15 Feb 2021 03:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:58:25.885519
- Title: MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos
- Title(参考訳): MOLTR:モノクロRGBビデオからの複数物体の局所化、追跡、再構成
- Authors: Kejie Li, Hamid Rezatofighi, Ian Reid
- Abstract要約: MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
- 参考スコア(独自算出の注目度): 30.541606989348377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic aware reconstruction is more advantageous than geometric-only
reconstruction for future robotic and AR/VR applications because it represents
not only where things are, but also what things are. Object-centric mapping is
a task to build an object-level reconstruction where objects are separate and
meaningful entities that convey both geometry and semantic information. In this
paper, we present MOLTR, a solution to object-centric mapping using only
monocular image sequences and camera poses. It is able to localise, track, and
reconstruct multiple objects in an online fashion when an RGB camera captures a
video of the surrounding. Given a new RGB frame, MOLTR firstly applies a
monocular 3D detector to localise objects of interest and extract their shape
codes that represent the object shapes in a learned embedding space. Detections
are then merged to existing objects in the map after data association. Motion
state (i.e. kinematics and the motion status) of each object is tracked by a
multiple model Bayesian filter and object shape is progressively refined by
fusing multiple shape code. We evaluate localisation, tracking, and
reconstruction on benchmarking datasets for indoor and outdoor scenes, and show
superior performance over previous approaches.
- Abstract(参考訳): セマンティック認識の再構築は、将来のロボットやAR/VRアプリケーションのための幾何学のみの再構築よりも有利だ。
オブジェクト中心マッピング(オブジェクト中心マッピング)は、オブジェクトが分離され、幾何情報と意味情報の両方を伝達する意味のあるエンティティであるオブジェクトレベルの再構築を構築するタスクである。
本稿では,モノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションであるMOLTRを提案する。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
新しいRGBフレームが与えられた後、MOLTRはまずモノクロ3D検出器を応用して、興味のある物体をローカライズし、学習された埋め込み空間内の物体の形状を表す形状コードを取り出す。
検出は、データアソシエーション後にマップ内の既存のオブジェクトにマージされる。
運動状態 (Motion State)。
各物体の運動学および運動状態)を多重モデルベイズフィルタにより追跡し、複数の形状コードを用いて物体形状を段階的に洗練する。
屋内および屋外シーンのベンチマークデータセットのローカライゼーション,追跡,再構成を評価し,従来の手法よりも優れた性能を示した。
関連論文リスト
- Real2Code: Reconstruct Articulated Objects via Code Generation [22.833809817357395]
Real2Codeは、コード生成を通じて記述されたオブジェクトを再構築する新しいアプローチである。
まず,画像分割モデルと形状完備モデルを用いて部分形状を再構成する。
オブジェクト指向言語モデルに入力されたオブジェクト指向境界ボックスでオブジェクト部品を表現し、コードとして関節の調音を予測する。
論文 参考訳(メタデータ) (2024-06-12T17:57:06Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and
Reconstruction [57.1209039399599]
我々は,シーン全体とその中のすべてのオブジェクトに対して,単一のボリュームを維持できるマップ表現を提案する。
複数の動的オブジェクト追跡および再構成シナリオにおいて,本表現は,近接して移動する他のオブジェクトによって一時的にオクルードされても,表面の正確な再構成を維持できる。
提案したTSDF++の定式化を公開合成データセット上で評価し,標準のTSDFマップ表現と比較した場合の閉塞面の復元性を示す。
論文 参考訳(メタデータ) (2021-05-16T16:15:05Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - FroDO: From Detections to 3D Objects [29.10716046157072]
FroDOは、RGBビデオからオブジェクトインスタンスを正確に3D再構成する手法である。
粗い方法で物体の位置、ポーズ、形状を推測する。
我々はPix3D、Redwood-OS、ScanNetなどの実世界のデータセットを評価した。
論文 参考訳(メタデータ) (2020-05-11T14:08:29Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。