論文の概要: Guidance and Teaching Network for Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2105.10110v1
- Date: Fri, 21 May 2021 03:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 12:23:58.079278
- Title: Guidance and Teaching Network for Video Salient Object Detection
- Title(参考訳): 映像有能物体検出のための指導・指導ネットワーク
- Authors: Ge-Peng Ji, Xiao Wang, Yu-Cheng Chou, Yuming Fang, Shouyuan Yang, Rong
Zhu, Ge Gao
- Abstract要約: 我々はGTNet(Guidance and Teaching Network)と呼ばれるシンプルだが効率的なアーキテクチャを提案する。
GTNetは、暗黙の指導と特徴レベルと意思決定レベルでの明示的な指導によって、効果的な空間的・時間的手がかりを駆除する。
この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモダリティをまたいだ情報的手がかりをマッピングすることで満足な結果を得る。
- 参考スコア(独自算出の注目度): 38.22880271210646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Owing to the difficulties of mining spatial-temporal cues, the existing
approaches for video salient object detection (VSOD) are limited in
understanding complex and noisy scenarios, and often fail in inferring
prominent objects. To alleviate such shortcomings, we propose a simple yet
efficient architecture, termed Guidance and Teaching Network (GTNet), to
independently distil effective spatial and temporal cues with implicit guidance
and explicit teaching at feature- and decision-level, respectively. To be
specific, we (a) introduce a temporal modulator to implicitly bridge features
from motion into the appearance branch, which is capable of fusing cross-modal
features collaboratively, and (b) utilise motion-guided mask to propagate the
explicit cues during the feature aggregation. This novel learning strategy
achieves satisfactory results via decoupling the complex spatial-temporal cues
and mapping informative cues across different modalities. Extensive experiments
on three challenging benchmarks show that the proposed method can run at ~28
fps on a single TITAN Xp GPU and perform competitively against 14 cutting-edge
baselines.
- Abstract(参考訳): 空間-時間的手がかりの採掘が困難であるため、vsod(video salient object detection)の既存のアプローチは、複雑でノイズの多いシナリオの理解に制限があり、しばしば顕著な物体の推測に失敗する。
そこで,このような欠点を解消するために,gtnet(gtnet)と呼ばれる簡易かつ効率的なアーキテクチャを提案する。
具体的には、(a)動きから外観ブランチに特徴を暗黙的に橋渡しするための時間変調器を導入し、クロスモーダルな特徴を協調的に利用し、(b)動き誘導マスクを用いて特徴集約中に明示的な手がかりを伝搬する。
この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモードで情報的手がかりをマッピングすることで満足な結果を得る。
3つの挑戦的ベンチマークに関する広範囲な実験により、提案手法は1つのtitan xp gpu上で28fpsで動作し、14の最先端ベースラインと競合して動作できることが示されている。
関連論文リスト
- Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Confidence-guided Adaptive Gate and Dual Differential Enhancement for
Video Salient Object Detection [47.68968739917077]
ビデオサルエント物体検出(VSOD)は、ビデオシーケンスに隠された空間的手がかりと時間的手がかりの両方を活用することにより、最も魅力的な物体の探索と分割を目的としている。
信頼性誘導適応ゲート(CAG)モジュールとデュアルディファレンシャルエンハンスメント(DDE)モジュールを含む空間的および時間的キューから利用可能な情報を適応的にキャプチャする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-14T08:49:37Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z) - TENet: Triple Excitation Network for Video Salient Object Detection [57.72696926903698]
我々は、ビデオ・サリエント・オブジェクト検出(VSOD)のトレーニングを強化するため、トリプル・エキサイティング・ネットワーク(Triple Excitation Network)というシンプルで効果的なアプローチを提案する。
これらの励磁機構は、カリキュラム学習の精神に従って設計され、訓練開始時の学習を減らすことを目的としている。
私たちの半カリキュラム学習設計では、VSODのオンライン戦略を初めて実現しています。
論文 参考訳(メタデータ) (2020-07-20T08:45:41Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。