論文の概要: RN-VID: A Feature Fusion Architecture for Video Object Detection
- arxiv url: http://arxiv.org/abs/2003.10898v2
- Date: Thu, 2 Apr 2020 15:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:17:27.548263
- Title: RN-VID: A Feature Fusion Architecture for Video Object Detection
- Title(参考訳): RN-VID:ビデオオブジェクト検出のための機能融合アーキテクチャ
- Authors: Hughes Perreault, Maguelonne H\'eritier, Pierre Gravel,
Guillaume-Alexandre Bilodeau and Nicolas Saunier
- Abstract要約: 本稿では,映像オブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案する。
まず、近隣のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に、チャネルの再順序付けと1 x 1畳み込みを用いて、同じ次元の特徴写像をマージする新しいモジュールを提案する。
- 参考スコア(独自算出の注目度): 10.667492516216889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consecutive frames in a video are highly redundant. Therefore, to perform the
task of video object detection, executing single frame detectors on every frame
without reusing any information is quite wasteful. It is with this idea in mind
that we propose RN-VID (standing for RetinaNet-VIDeo), a novel approach to
video object detection. Our contributions are twofold. First, we propose a new
architecture that allows the usage of information from nearby frames to enhance
feature maps. Second, we propose a novel module to merge feature maps of same
dimensions using re-ordering of channels and 1 x 1 convolutions. We then
demonstrate that RN-VID achieves better mean average precision (mAP) than
corresponding single frame detectors with little additional cost during
inference.
- Abstract(参考訳): ビデオの連続フレームは非常に冗長である。
したがって、ビデオオブジェクト検出のタスクを実行するために、情報を再利用することなく、各フレーム上で単一のフレーム検出器を実行することは、非常に無駄である。
ビデオオブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案することは,この考え方を念頭に置いている。
私たちの貢献は2倍です。
まず,近傍のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に,チャネルの再順序付けと1×1畳み込みを用いて同一次元の特徴写像をマージする新規モジュールを提案する。
次に, RN-VIDは, 単フレーム検出器よりも平均精度(mAP)が良く, 推論にはほとんどコストがかからないことを示した。
関連論文リスト
- STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - FFAVOD: Feature Fusion Architecture for Video Object Detection [11.365829102707014]
本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。
まず,周辺フレーム間で特徴マップをネットワークで共有できる新しいビデオオブジェクト検出アーキテクチャを提案する。
提案したアーキテクチャと融合モジュールを用いることで,移動路利用者のシーケンスを含む2つのオブジェクト検出ベンチマークにおいて,3つのベースオブジェクト検出器の性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-15T13:53:21Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing [15.162117090697006]
そこで我々は,ビデオにおけるオブジェクト検出の計算要求を削減するためのPack and Detectを提案する。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4.99ドル削減できることを示している。
論文 参考訳(メタデータ) (2018-09-05T19:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。