論文の概要: Joint Representation of Temporal Image Sequences and Object Motion for
Video Object Detection
- arxiv url: http://arxiv.org/abs/2011.10278v1
- Date: Fri, 20 Nov 2020 08:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:08:56.239623
- Title: Joint Representation of Temporal Image Sequences and Object Motion for
Video Object Detection
- Title(参考訳): 映像オブジェクト検出のための時間的画像系列と物体運動の同時表現
- Authors: Junho Koh, Jaekyum Kim, Younji Shin, Byeongwon Lee, Seungji Yang and
Jun Won Choi
- Abstract要約: 時間的特徴集約と動き認識型VoD(TM-VoD)と呼ばれる新しいビデオオブジェクト検出器(VoD)を提案する。
TM-VoDは、時間的注意ゲーティングと空間的特徴アライメントを適用した畳み込みニューラルネットワークによって抽出された視覚特徴マップを集約する。
提案手法は既存のVoD法より優れ,最先端のVoDと同等の性能を実現する。
- 参考スコア(独自算出の注目度): 9.699309217726691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new video object detector (VoD) method referred
to as temporal feature aggregation and motion-aware VoD (TM-VoD), which
produces a joint representation of temporal image sequences and object motion.
The proposed TM-VoD aggregates visual feature maps extracted by convolutional
neural networks applying the temporal attention gating and spatial feature
alignment. This temporal feature aggregation is performed in two stages in a
hierarchical fashion. In the first stage, the visual feature maps are fused at
a pixel level via gated attention model. In the second stage, the proposed
method aggregates the features after aligning the object features using
temporal box offset calibration and weights them according to the cosine
similarity measure. The proposed TM-VoD also finds the representation of the
motion of objects in two successive steps. The pixel-level motion features are
first computed based on the incremental changes between the adjacent visual
feature maps. Then, box-level motion features are obtained from both the region
of interest (RoI)-aligned pixel-level motion features and the sequential
changes of the box coordinates. Finally, all these features are concatenated to
produce a joint representation of the objects for VoD. The experiments
conducted on the ImageNet VID dataset demonstrate that the proposed method
outperforms existing VoD methods and achieves a performance comparable to that
of state-of-the-art VoDs.
- Abstract(参考訳): 本稿では,時間的特徴集合と運動認識vod (tm-vod) と呼ばれる,時間的画像シーケンスと物体の動きの結合表現を生成する新しいビデオ物体検出器 (vod) 法を提案する。
時間的注意ゲーティングと空間的特徴アライメントを併用した畳み込みニューラルネットワークにより抽出された視覚特徴マップをtm-vodに集約する。
この時間的特徴集約は階層的な方法で2段階で行われる。
第1段階では、視覚特徴マップは、ゲートアテンションモデルを介して画素レベルで融合される。
第2段階において,提案手法は,時間的ボックスオフセットキャリブレーションを用いて物体の特徴を整列させた後に特徴を集約し,コサイン類似度尺度に従って重み付けする。
提案したTM-VoDは、2つの連続したステップで物体の動きを表現する。
ピクセルレベルの動作特徴は、隣接する視覚特徴マップ間のインクリメンタルな変化に基づいて最初に計算される。
次に、関心領域(roi)調整された画素レベル動作特徴と、ボックス座標の逐次変化の両方からボックスレベルの動作特徴を得る。
最後に、これら全ての機能は結合され、vodのオブジェクトの結合表現を生成する。
ImageNet VIDデータセットで実施した実験により,提案手法は既存のVoD法より優れ,最先端のVoDと同等の性能を発揮することが示された。
関連論文リスト
- JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection [7.202931445597171]
本稿では,未編集映像の動作を検出する新しいネットワークを提案する。
このネットワークは、モーション対応2D位置符号化を利用して、ビデオフレーム内のアクションセマンティクスの位置を符号化する。
このアプローチは、4つの提案されたデータセット上で最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-05-13T21:47:35Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer [2.4366811507669124]
本研究では,時間的フレーム列からのオブジェクト検出のための時空間変換器アーキテクチャを提案する。
両次元にまたがる特徴相関を利用するために, 注意機構をフルに活用する。
その結果,KITTI MODデータセットでは5%のmAP改善が見られた。
論文 参考訳(メタデータ) (2021-07-13T07:38:08Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。