論文の概要: TF-Blender: Temporal Feature Blender for Video Object Detection
- arxiv url: http://arxiv.org/abs/2108.05821v1
- Date: Thu, 12 Aug 2021 16:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:31:42.745732
- Title: TF-Blender: Temporal Feature Blender for Video Object Detection
- Title(参考訳): TF-Blender:ビデオオブジェクト検出のための時間的特徴ブレンダー
- Authors: Yiming Cui, Liqi Yan, Zhiwen Cao, Dongfang Liu
- Abstract要約: 孤立したビデオフレームが外観劣化に遭遇する可能性があるため、ビデオの対物検出は難しい課題である。
1) 時間的関係は、空間情報を保存するために、現在のフレームと隣接するフレームの関係を変調する。
その単純さのために、TF-Blenderはあらゆる検出ネットワークに懸命に接続して検出動作を改善することができる。
- 参考スコア(独自算出の注目度): 6.369234802164117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video objection detection is a challenging task because isolated video frames
may encounter appearance deterioration, which introduces great confusion for
detection. One of the popular solutions is to exploit the temporal information
and enhance per-frame representation through aggregating features from
neighboring frames. Despite achieving improvements in detection, existing
methods focus on the selection of higher-level video frames for aggregation
rather than modeling lower-level temporal relations to increase the feature
representation. To address this limitation, we propose a novel solution named
TF-Blender,which includes three modules: 1) Temporal relation mod-els the
relations between the current frame and its neighboring frames to preserve
spatial information. 2). Feature adjustment enriches the representation of
every neigh-boring feature map; 3) Feature blender combines outputs from the
first two modules and produces stronger features for the later detection tasks.
For its simplicity, TF-Blender can be effortlessly plugged into any detection
network to improve detection behavior. Extensive evaluations on ImageNet VID
and YouTube-VIS benchmarks indicate the performance guarantees of using
TF-Blender on recent state-of-the-art methods.
- Abstract(参考訳): ビデオの対物検出は、分離されたビデオフレームが外観劣化に遭遇し、検出に大きな混乱をもたらすため、困難な作業である。
一般的な解決策の1つは、時間的情報を活用し、隣接するフレームからの特徴を集約することでフレーム毎の表現を強化することである。
検出精度は向上したが,既存の手法では,特徴表現を高めるために,下位の時間関係をモデル化するのではなく,アグリゲーションのための高レベルビデオフレームの選択に重点を置いている。
この制限に対処するために, tf-blender という新しい解法を提案する。(1) 時間的関係は現在のフレームとその隣接フレームの関係を修飾し, 空間情報を保存する。
2).
3) 特徴ブレンダーは、最初の2つのモジュールからの出力を組み合わせて、後続の検知タスクのためにより強力な特徴を生成する。
その単純さのために、TF-Blenderはあらゆる検出ネットワークに懸命に接続して検出動作を改善することができる。
ImageNet VIDとYouTube-VISベンチマークの大規模な評価は、最近の最先端手法でTF-Blenderを使用することによるパフォーマンス保証を示している。
関連論文リスト
- STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。