論文の概要: Object-aware Feature Aggregation for Video Object Detection
- arxiv url: http://arxiv.org/abs/2010.12573v1
- Date: Fri, 23 Oct 2020 17:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:28:53.271611
- Title: Object-aware Feature Aggregation for Video Object Detection
- Title(参考訳): ビデオオブジェクト検出のためのオブジェクト認識機能集約
- Authors: Qichuan Geng, Hong Zhang, Na Jiang, Xiaojuan Qi, Liangjun Zhang, Zhong
Zhou
- Abstract要約: ビデオレベルのオブジェクト認識知識は、オブジェクト認識を助ける前に強力なセマンティクスとして利用することができる。
我々のアプローチは、ビデオレベルのオブジェクト認識知識を、オブジェクト認識に先立って強力なセマンティクスとして活用できるという興味深い性質に動機付けられている。
- 参考スコア(独自算出の注目度): 37.87531629746337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an Object-aware Feature Aggregation (OFA) module for video object
detection (VID). Our approach is motivated by the intriguing property that
video-level object-aware knowledge can be employed as a powerful semantic prior
to help object recognition. As a consequence, augmenting features with such
prior knowledge can effectively improve the classification and localization
performance. To make features get access to more content about the whole video,
we first capture the object-aware knowledge of proposals and incorporate such
knowledge with the well-established pair-wise contexts. With extensive
experimental results on the ImageNet VID dataset, our approach demonstrates the
effectiveness of object-aware knowledge with the superior performance of 83.93%
and 86.09% mAP with ResNet-101 and ResNeXt-101, respectively. When further
equipped with Sequence DIoU NMS, we obtain the best-reported mAP of 85.07% and
86.88% upon the paper submitted. The code to reproduce our results will be
released after acceptance.
- Abstract(参考訳): ビデオオブジェクト検出(VID)のためのOFA(Object-Aware Feature Aggregation)モジュールを提案する。
私たちのアプローチは、ビデオレベルのオブジェクト認識知識がオブジェクト認識に先立って強力なセマンティクスとして活用できるという興味深い特性に動機付けられたものです。
その結果、事前知識による機能強化は、分類とローカライズ性能を効果的に向上させることができる。
ビデオ全体に関するより多くのコンテンツにアクセスするために、私たちはまず提案に関するオブジェクト指向の知識を捉え、その知識を確立されたペアワイズコンテキストに組み込む。
ImageNet VIDデータセットの広範な実験結果から,ResNet-101 と ResNeXt-101 による 83.93% と 86.09% mAP の優れた性能を持つオブジェクト指向知識の有効性を示す。
シークエンスDIoU NMSを更に装備すると、提出された論文から85.07%と86.88%の最も報告されたmAPが得られる。
結果を再現するコードは受理後に解放されます。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene
Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文 参考訳(メタデータ) (2021-08-01T08:37:08Z) - PMVOS: Pixel-Level Matching-Based Video Object Segmentation [9.357153487612965]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。
近年の画素レベルのマッチング (PM) は, 高い性能のため, 特徴マッチングに広く用いられている。
本稿では,過去のすべてのフレームの情報を含む強力なテンプレート機能を構築するPMVOS(Message-PM-based Video Object segmentation)を提案する。
論文 参考訳(メタデータ) (2020-09-18T14:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。