論文の概要: EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries
- arxiv url: http://arxiv.org/abs/2212.06969v2
- Date: Mon, 28 Aug 2023 12:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:03:21.455554
- Title: EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries
- Title(参考訳): EgoLoc: ビジュアルクエリでエゴセントリックなビデオから3Dオブジェクトのローカライゼーションを再考
- Authors: Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem
- Abstract要約: 我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
- 参考スコア(独自算出の注目度): 68.75400888770793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent advances in video and 3D understanding, novel 4D
spatio-temporal methods fusing both concepts have emerged. Towards this
direction, the Ego4D Episodic Memory Benchmark proposed a task for Visual
Queries with 3D Localization (VQ3D). Given an egocentric video clip and an
image crop depicting a query object, the goal is to localize the 3D position of
the center of that query object with respect to the camera pose of a query
frame. Current methods tackle the problem of VQ3D by unprojecting the 2D
localization results of the sibling task Visual Queries with 2D Localization
(VQ2D) into 3D predictions. Yet, we point out that the low number of camera
poses caused by camera re-localization from previous VQ3D methods severally
hinders their overall success rate. In this work, we formalize a pipeline (we
dub EgoLoc) that better entangles 3D multiview geometry with 2D object
retrieval from egocentric videos. Our approach involves estimating more robust
camera poses and aggregating multi-view 3D displacements by leveraging the 2D
detection confidence, which enhances the success rate of object queries and
leads to a significant improvement in the VQ3D baseline performance.
Specifically, our approach achieves an overall success rate of up to 87.12%,
which sets a new state-of-the-art result in the VQ3D task. We provide a
comprehensive empirical analysis of the VQ3D task and existing solutions, and
highlight the remaining challenges in VQ3D. The code is available at
https://github.com/Wayne-Mai/EgoLoc.
- Abstract(参考訳): 近年のビデオと3D理解の進歩により,両概念を融合した新しい4次元時空間法が出現している。
この方向に向かって、Ego4D Episodic Memory Benchmarkは3Dローカライゼーション(VQ3D)を備えたビジュアルクエリのためのタスクを提案した。
エゴセントリックなビデオクリップとクエリオブジェクトを描写したイメージクロップが与えられた場合、クエリフレームのカメラポーズに対して、クエリオブジェクトの中心の3D位置をローカライズすることが目的である。
現在のVQ3D法は,2次元局所化(VQ2D)による兄弟タスクの2次元局所化結果を3次元予測に解き放つことで,VQ3Dの問題に対処している。
しかし,従来のVQ3D手法によるカメラ再位置化によるカメラポーズの少なさは,その全体的な成功率を妨げていると指摘する。
本研究では,エゴセントリックビデオからの2次元オブジェクト検索による3次元マルチビュー形状の絡み合いを改善するパイプライン(egoloc)を定式化した。
提案手法では,オブジェクトクエリの成功率を高め,VQ3Dベースライン性能を大幅に向上させる2次元検出信頼度を利用して,より堅牢なカメラポーズの推定と多視点3D変位の集約を行う。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
我々は、VQ3Dタスクと既存のソリューションの総合的な実証分析を行い、VQ3Dにおける残りの課題を強調する。
コードはhttps://github.com/Wayne-Mai/EgoLoc.comで入手できる。
関連論文リスト
- Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - EgoCOL: Egocentric Camera pose estimation for Open-world 3D object
Localization @Ego4D challenge 2023 [9.202585784962276]
オープンワールド3Dオブジェクトローカライゼーションのためのエゴセントリックカメラポーズ推定法であるEgoCOLを提案する。
提案手法は,2次元のカメラポーズをビデオとスキャンで独立に再現し,高いリコール精度と精度で3次元レンダリングにおける自己中心型フレームのカメラポーズを推定する。
論文 参考訳(メタデータ) (2023-06-29T00:17:23Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Estimating more camera poses for ego-centric videos is essential for
VQ3D [70.78927854445615]
我々は,エゴセントリックなビデオカメラのポーズ推定問題に対する新たなパイプラインを構築した。
VQ3Dの総成功率は25.8%で、ベースラインで報告された8.7%よりも2倍高い。
論文 参考訳(メタデータ) (2022-11-18T15:16:49Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。