論文の概要: TENet: Triple Excitation Network for Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2007.09943v2
- Date: Sun, 30 Aug 2020 12:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:48:08.548000
- Title: TENet: Triple Excitation Network for Video Salient Object Detection
- Title(参考訳): tenet:ビデオサリエント物体検出のための三重励起ネットワーク
- Authors: Sucheng Ren and Chu Han and Xin Yang and Guoqiang Han and Shengfeng He
- Abstract要約: 我々は、ビデオ・サリエント・オブジェクト検出(VSOD)のトレーニングを強化するため、トリプル・エキサイティング・ネットワーク(Triple Excitation Network)というシンプルで効果的なアプローチを提案する。
これらの励磁機構は、カリキュラム学習の精神に従って設計され、訓練開始時の学習を減らすことを目的としている。
私たちの半カリキュラム学習設計では、VSODのオンライン戦略を初めて実現しています。
- 参考スコア(独自算出の注目度): 57.72696926903698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a simple yet effective approach, named Triple
Excitation Network, to reinforce the training of video salient object detection
(VSOD) from three aspects, spatial, temporal, and online excitations. These
excitation mechanisms are designed following the spirit of curriculum learning
and aim to reduce learning ambiguities at the beginning of training by
selectively exciting feature activations using ground truth. Then we gradually
reduce the weight of ground truth excitations by a curriculum rate and replace
it by a curriculum complementary map for better and faster convergence. In
particular, the spatial excitation strengthens feature activations for clear
object boundaries, while the temporal excitation imposes motions to emphasize
spatio-temporal salient regions. Spatial and temporal excitations can combat
the saliency shifting problem and conflict between spatial and temporal
features of VSOD. Furthermore, our semi-curriculum learning design enables the
first online refinement strategy for VSOD, which allows exciting and boosting
saliency responses during testing without re-training. The proposed triple
excitations can easily plug in different VSOD methods. Extensive experiments
show the effectiveness of all three excitation methods and the proposed method
outperforms state-of-the-art image and video salient object detection methods.
- Abstract(参考訳): 本稿では,3つの側面,空間的,時間的,オンラインの励起からビデオサルエント物体検出(VSOD)のトレーニングを強化するための,トリプル励起ネットワーク(Triple Excitation Network)を提案する。
これらの励磁機構はカリキュラム学習の精神に則って設計され、基礎的真理を用いた選択的に刺激的な特徴アクティベーションによって訓練開始時の学習のあいまいさを低減することを目的としている。
次に, 基礎的真理励振の重みをカリキュラム率で徐々に削減し, より良く高速な収束のためのカリキュラム補完マップに置き換える。
特に、空間的励起はクリアな物体の境界に対する特徴活性化を強化し、時間的励起は時空間正弦領域を強調する動きを強制する。
空間的および時間的興奮は、VSODの空間的特徴と時間的特徴の間の相違と相反する。
さらに,この半カリキュラム学習設計により,VSODのオンライン改善戦略を初めて実現し,テスト中のサリエンシ応答のエキサイティングと促進を,再トレーニングなしで実現する。
提案した三重励起は、異なるVSODメソッドを簡単にプラグインできる。
広範にわたる実験により,3つの励磁法および提案手法が最先端画像および映像サリエント物体検出法を上回った。
関連論文リスト
- D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Guidance and Teaching Network for Video Salient Object Detection [38.22880271210646]
我々はGTNet(Guidance and Teaching Network)と呼ばれるシンプルだが効率的なアーキテクチャを提案する。
GTNetは、暗黙の指導と特徴レベルと意思決定レベルでの明示的な指導によって、効果的な空間的・時間的手がかりを駆除する。
この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモダリティをまたいだ情報的手がかりをマッピングすることで満足な結果を得る。
論文 参考訳(メタデータ) (2021-05-21T03:25:38Z) - A Bioinspired Approach-Sensitive Neural Network for Collision Detection
in Cluttered and Dynamic Backgrounds [19.93930316898735]
移動中の物体の迅速かつ堅牢な検出は、ロボット視覚システムにとって重要かつ困難な問題である。
哺乳類網膜における神経回路の初等視覚にインスパイアされた,バイオインスパイアされたアプローチ感受性ニューラルネットワーク(AS)を提案する。
提案手法は, クラッタや動的背景の衝突を高精度かつロバストに検出するだけでなく, 位置や方向などの衝突情報を抽出し, 迅速な意思決定を支援する。
論文 参考訳(メタデータ) (2021-03-01T09:16:18Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - A Novel Video Salient Object Detection Method via Semi-supervised Motion
Quality Perception [52.40934043694379]
本稿では,すべての最先端(SOTA)手法に対して,さらに3%の性能向上を実現するための普遍的な学習手法を提案する。
我々は、動画フレームのサブグループを元のテストセットから選択し、新しいトレーニングセットを構築するという、新しいコンセプトである「モーションクオリティ」を活用している。
この新しいトレーニングセットで選択されたフレームには、すべて高品質な動きが含まれており、「ターゲットSOTA法」によって正常な物体が検出される確率が大きい。
論文 参考訳(メタデータ) (2020-08-07T02:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。