論文の概要: Scale-aware Insertion of Virtual Objects in Monocular Videos
- arxiv url: http://arxiv.org/abs/2012.02371v1
- Date: Fri, 4 Dec 2020 02:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 11:59:13.120078
- Title: Scale-aware Insertion of Virtual Objects in Monocular Videos
- Title(参考訳): 単眼映像における仮想物体のスケールアウェア挿入
- Authors: Songhai Zhang and Xiangli Li and Yingtian Liu and Hongbo Fu
- Abstract要約: モノクロビデオに適切な大きさの仮想オブジェクトを挿入するためのスケールアウェア手法を提案する。
本研究では,映像中の大域的対象をベイズ的アプローチで推定し,対象物のサイズを取り入れた。
本研究では,提案手法が最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 24.20476269109287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a scale-aware method for inserting virtual objects
with proper sizes into monocular videos. To tackle the scale ambiguity problem
of geometry recovery from monocular videos, we estimate the global scale
objects in a video with a Bayesian approach incorporating the size priors of
objects, where the scene objects sizes should strictly conform to the same
global scale and the possibilities of global scales are maximized according to
the size distribution of object categories. To do so, we propose a dataset of
sizes of object categories: Metric-Tree, a hierarchical representation of sizes
of more than 900 object categories with the corresponding images. To handle the
incompleteness of objects recovered from videos, we propose a novel scale
estimation method that extracts plausible dimensions of objects for scale
optimization. Experiments have shown that our method for scale estimation
performs better than the state-of-the-art methods, and has considerable
validity and robustness for different video scenes. Metric-Tree has been made
available at: https://metric-tree.github.io
- Abstract(参考訳): 本稿では,適切な大きさの仮想物体を単眼映像に挿入するスケールアウェア手法を提案する。
単眼映像からの幾何復元のスケール曖昧性問題に取り組むため,映像中のグローバルスケールオブジェクトをベイズ的手法を用いて推定し,シーンオブジェクトのサイズは同一のグローバルスケールに厳密に準拠すべきであり,グローバルスケールの可能性は対象カテゴリのサイズ分布に応じて最大化する。
そこで我々は,対象のカテゴリの大きさのデータセットを提案する。メートル法ツリー,対応する画像と900以上の対象カテゴリの階層表現である。
ビデオから回収したオブジェクトの不完全性に対処するために,オブジェクトの可視次元を抽出してスケール最適化を行う,新しいスケール推定手法を提案する。
実験により,本手法は最先端手法よりも優れた性能を示し,異なる映像シーンに対して高い妥当性とロバスト性を示した。
Metric-Tree は https://metric-tree.github.io で利用可能になった。
関連論文リスト
- OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Category-level Shape Estimation for Densely Cluttered Objects [94.64287790278887]
そこで本研究では,密に散らばった物体のカテゴリレベルの形状推定手法を提案する。
我々のフレームワークは、多視点視覚情報融合によって、各オブジェクトをクラッタに分割する。
シミュレーション環境と実世界の実験から,本手法が高精度な形状推定を実現することが示された。
論文 参考訳(メタデータ) (2023-02-23T13:00:17Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level
Ellipsoid and Signed Distance Function Description [9.734266860544663]
本稿では,関節オブジェクトのポーズと形状最適化のための表現的かつコンパクトなモデルを提案する。
多視点RGB-Dカメラ観測からオブジェクトレベルのマップを推論する。
提案手法は,大規模実世界のScanNetデータセットを用いて評価し,最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-01T03:07:31Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。