論文の概要: Negative Frames Matter in Egocentric Visual Query 2D Localization
- arxiv url: http://arxiv.org/abs/2208.01949v1
- Date: Wed, 3 Aug 2022 09:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:48:33.830549
- Title: Negative Frames Matter in Egocentric Visual Query 2D Localization
- Title(参考訳): egocentric visual query 2d localizationにおける負のフレーム
- Authors: Mengmeng Xu, Cheng-Yang Fu, Yanghao Li, Bernard Ghanem, Juan-Manuel
Perez-Rua, Tao Xiang
- Abstract要約: 最近リリースされたEgo4Dデータセットとベンチマークは、一人称視覚知覚データを大幅にスケールし、多様化している。
Visual Queries 2Dローカライゼーションタスクは、1対1の視点で記録された過去に存在するオブジェクトを検索することを目的としている。
本研究は,Epsodic Memoryベンチマークで導入された3段階ベースラインに基づく。
- 参考スコア(独自算出の注目度): 119.23191388798921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently released Ego4D dataset and benchmark significantly scales and
diversifies the first-person visual perception data. In Ego4D, the Visual
Queries 2D Localization task aims to retrieve objects appeared in the past from
the recording in the first-person view. This task requires a system to
spatially and temporally localize the most recent appearance of a given object
query, where query is registered by a single tight visual crop of the object in
a different scene.
Our study is based on the three-stage baseline introduced in the Episodic
Memory benchmark. The baseline solves the problem by detection and tracking:
detect the similar objects in all the frames, then run a tracker from the most
confident detection result. In the VQ2D challenge, we identified two
limitations of the current baseline. (1) The training configuration has
redundant computation. Although the training set has millions of instances,
most of them are repetitive and the number of unique object is only around
14.6k. The repeated gradient computation of the same object lead to an
inefficient training; (2) The false positive rate is high on background frames.
This is due to the distribution gap between training and evaluation. During
training, the model is only able to see the clean, stable, and labeled frames,
but the egocentric videos also have noisy, blurry, or unlabeled background
frames. To this end, we developed a more efficient and effective solution.
Concretely, we bring the training loop from ~15 days to less than 24 hours, and
we achieve 0.17% spatial-temporal AP, which is 31% higher than the baseline.
Our solution got the first ranking on the public leaderboard. Our code is
publicly available at https://github.com/facebookresearch/vq2d_cvpr.
- Abstract(参考訳): 最近リリースされたego4dデータセットとベンチマークは、ファーストパーソンの視覚知覚データを大幅にスケールし、多様化する。
Ego4Dでは、Visual Queries 2D Localizationタスクは、記録から過去に存在するオブジェクトを1対1で検索することを目的としている。
このタスクは、与えられたオブジェクトクエリの最新の外観を空間的かつ時間的にローカライズするシステムを必要とする。
本研究はエピソディックメモリベンチマークで導入された3段階ベースラインに基づいている。
ベースラインは、すべてのフレームで類似したオブジェクトを検出し、最も確実な検出結果からトラッカーを実行する。
VQ2Dチャレンジでは、現在のベースラインの2つの制限を特定した。
1) トレーニング構成は冗長な計算量を有する。
トレーニングセットには数百万のインスタンスがあるが、そのほとんどは反復的であり、ユニークなオブジェクトの数は14.6k程度である。
同じ物体の繰り返し勾配計算は非効率な訓練につながる; (2) 偽陽性率は背景フレーム上で高い。
これは、トレーニングと評価の間の分布の差によるものである。
トレーニング中、モデルはクリーンで安定したラベル付きフレームしか見ることができないが、エゴセントリックなビデオはノイズ、ぼやけた、ラベルなしの背景フレームもある。
この目的のために、より効率的で効果的なソリューションを開発しました。
具体的には,トレーニングループを15日程度から24時間未満に短縮し,約0.17%の時空間APを達成でき,これはベースラインよりも31%高い。
私たちのソリューションは、公開リーダーボードで第1位を獲得しました。
私たちのコードはhttps://github.com/facebookresearch/vq2d_cvprで公開されています。
関連論文リスト
- EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization [119.23191388798921]
本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:50:50Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。
私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。
第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文 参考訳(メタデータ) (2020-12-15T16:54:45Z) - Factor Graph based 3D Multi-Object Tracking in Point Clouds [8.411514688735183]
明示的および固定的な代入に依存しない新しい最適化に基づくアプローチを提案する。
我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。
論文 参考訳(メタデータ) (2020-08-12T13:34:46Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z) - Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。
具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。
また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-07T17:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。