論文の概要: Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization
- arxiv url: http://arxiv.org/abs/2211.10528v2
- Date: Thu, 6 Apr 2023 09:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 17:44:55.387014
- Title: Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization
- Title(参考訳): 私の財布はどこにありますか。
エゴセントリックなビジュアルクエリローカライゼーションのためのオブジェクト提案セットのモデリング
- Authors: Mengmeng Xu, Yanghao Li, Cheng-Yang Fu, Bernard Ghanem, Tao Xiang,
Juan-Manuel Perez-Rua
- Abstract要約: 本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
- 参考スコア(独自算出の注目度): 119.23191388798921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with the problem of localizing objects in image and video
datasets from visual exemplars. In particular, we focus on the challenging
problem of egocentric visual query localization. We first identify grave
implicit biases in current query-conditioned model design and visual query
datasets. Then, we directly tackle such biases at both frame and object set
levels. Concretely, our method solves these issues by expanding limited
annotations and dynamically dropping object proposals during training.
Additionally, we propose a novel transformer-based module that allows for
object-proposal set context to be considered while incorporating query
information. We name our module Conditioned Contextual Transformer or
CocoFormer. Our experiments show the proposed adaptations improve egocentric
query detection, leading to a better visual query localization system in both
2D and 3D configurations. Thus, we are able to improve frame-level detection
performance from 26.28% to 31.26 in AP, which correspondingly improves the VQ2D
and VQ3D localization scores by significant margins. Our improved context-aware
query object detector ranked first and second in the VQ2D and VQ3D tasks in the
2nd Ego4D challenge. In addition to this, we showcase the relevance of our
proposed model in the Few-Shot Detection (FSD) task, where we also achieve SOTA
results. Our code is available at
https://github.com/facebookresearch/vq2d_cvpr.
- Abstract(参考訳): 本稿では,画像および映像データセットにおけるオブジェクトのローカライズの問題を扱う。
特に,エゴセントリックな視覚的クエリローカライゼーションの課題に注目する。
まず,現在の問合せ条件モデル設計と視覚的問合せデータセットにおける暗黙のバイアスを識別する。
そして、フレームとオブジェクトセットの両方のレベルで、そのようなバイアスに対処する。
具体的には、制限付きアノテーションを拡張し、トレーニング中にオブジェクト提案を動的にドロップすることで、これらの問題を解決する。
さらに,クエリ情報を取り込んでオブジェクトプロポサル集合コンテキストを考慮できる,トランスフォーマティブなモジュールを提案する。
モジュールの名前は Conditioned Contextual Transformer または CocoFormer です。
提案手法により,エゴセントリックなクエリ検出が向上し,2次元および3次元構成の視覚的クエリローカライゼーションシステムが改善された。
これにより、フレームレベルの検出性能が26.28%から31.26に向上し、VQ2DとVQ3Dのローカライゼーションスコアが大幅に向上する。
第2回Ego4Dチャレンジでは,VQ2DタスクとVQ3Dタスクで第1位,第2位となった。
さらに,Few-Shot Detection (FSD)タスクにおいて提案するモデルの有効性を示す。
私たちのコードはhttps://github.com/facebookresearch/vq2d_cvprで入手できる。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - Towards Explainable 3D Grounded Visual Question Answering: A New
Benchmark and Strong Baseline [35.717047755880536]
3次元視覚的質問応答(VQA)タスクは、あまり利用されず、言語の先行や参照のあいまいさにもより影響を受けやすい。
我々は、多様で比較的自由な質問応答ペアを備えた新しい3D VQAデータセットと、密集した完全に接地されたバウンディングボックスアノテーションを収集する。
完全視覚的かつ説明可能な答えを効果的に予測する3D VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:09:02Z) - Negative Frames Matter in Egocentric Visual Query 2D Localization [119.23191388798921]
最近リリースされたEgo4Dデータセットとベンチマークは、一人称視覚知覚データを大幅にスケールし、多様化している。
Visual Queries 2Dローカライゼーションタスクは、1対1の視点で記録された過去に存在するオブジェクトを検索することを目的としている。
本研究は,Epsodic Memoryベンチマークで導入された3段階ベースラインに基づく。
論文 参考訳(メタデータ) (2022-08-03T09:54:51Z) - Deformable PV-RCNN: Improving 3D Object Detection with Learned
Deformations [11.462554246732683]
Deformable PV-RCNNは高性能な点クラウド型3Dオブジェクト検出器である。
本稿では,2次元変形可能な畳み込みネットワークにインスパイアされた改良モジュールを提案する。
KITTIデータセットに最先端の結果を示す。
論文 参考訳(メタデータ) (2020-08-20T04:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。