論文の概要: Estimating more camera poses for ego-centric videos is essential for
VQ3D
- arxiv url: http://arxiv.org/abs/2211.10284v1
- Date: Fri, 18 Nov 2022 15:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:20:22.932054
- Title: Estimating more camera poses for ego-centric videos is essential for
VQ3D
- Title(参考訳): ego中心のビデオにカメラのポーズを増やすことはvq3dにとって必須だ
- Authors: Jinjie Mai, Chen Zhao, Abdullah Hamdi, Silvio Giancola, Bernard Ghanem
- Abstract要約: 我々は,エゴセントリックなビデオカメラのポーズ推定問題に対する新たなパイプラインを構築した。
VQ3Dの総成功率は25.8%で、ベースラインで報告された8.7%よりも2倍高い。
- 参考スコア(独自算出の注目度): 70.78927854445615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual queries 3D localization (VQ3D) is a task in the Ego4D Episodic Memory
Benchmark. Given an egocentric video, the goal is to answer queries of the form
"Where did I last see object X?", where the query object X is specified as a
static image, and the answer should be a 3D displacement vector pointing to
object X. However, current techniques use naive ways to estimate the camera
poses of video frames, resulting in a low query with pose (QwP) ratio, thus a
poor overall success rate. We design a new pipeline for the challenging
egocentric video camera pose estimation problem in our work. Moreover, we
revisit the current VQ3D framework and optimize it in terms of performance and
efficiency. As a result, we get the top-1 overall success rate of 25.8% on VQ3D
leaderboard, which is two times better than the 8.7% reported by the baseline.
- Abstract(参考訳): ビジュアルクエリ3Dローカライゼーション(VQ3D)は、Ego4D Episodic Memory Benchmarkのタスクである。
エゴセントリックビデオが与えられた場合、クエリオブジェクトxが静的画像として指定され、答えがオブジェクトxを指し示す3d変位ベクトルである「オブジェクトxを最後に見る場所」という形式のクエリに答えることである。しかし、現在の技術では、ビデオフレームのカメラポーズの推定にナイーブな方法が使われており、その結果、ポーズ(qwp)比が低く、全体の成功率が低くなる。
我々は,エゴセントリックなビデオカメラのポーズ推定問題に対する新たなパイプラインを設計する。
さらに、現在のVQ3Dフレームワークを再検討し、性能と効率の観点から最適化する。
その結果、vq3d leaderboardにおけるトップ1全体の成功率は25.8%となり、ベースラインが報告した8.7%よりも2倍良い。
関連論文リスト
- Hybrid Structure-from-Motion and Camera Relocalization for Enhanced Egocentric Localization [64.08563002366812]
VQ3Dタスクのカメラポーズ推定部を改善するためのモデルアンサンブル戦略を提案する。
中心となるアイデアは、egocentric videoのSfMだけでなく、既存の3Dスキャンと2Dビデオフレームの2D-3Dマッチングも行うことだ。
本手法は,最も重要な指標である総合的な成功率に関して,最高の性能を達成する。
論文 参考訳(メタデータ) (2024-07-10T20:01:35Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - EgoCOL: Egocentric Camera pose estimation for Open-world 3D object
Localization @Ego4D challenge 2023 [9.202585784962276]
オープンワールド3Dオブジェクトローカライゼーションのためのエゴセントリックカメラポーズ推定法であるEgoCOLを提案する。
提案手法は,2次元のカメラポーズをビデオとスキャンで独立に再現し,高いリコール精度と精度で3次元レンダリングにおける自己中心型フレームのカメラポーズを推定する。
論文 参考訳(メタデータ) (2023-06-29T00:17:23Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - Negative Frames Matter in Egocentric Visual Query 2D Localization [119.23191388798921]
最近リリースされたEgo4Dデータセットとベンチマークは、一人称視覚知覚データを大幅にスケールし、多様化している。
Visual Queries 2Dローカライゼーションタスクは、1対1の視点で記録された過去に存在するオブジェクトを検索することを目的としている。
本研究は,Epsodic Memoryベンチマークで導入された3段階ベースラインに基づく。
論文 参考訳(メタデータ) (2022-08-03T09:54:51Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。