論文の概要: Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2008.02973v1
- Date: Fri, 7 Aug 2020 03:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:43:22.303667
- Title: Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection
- Title(参考訳): リアルタイムビデオサリエント物体検出のためのリッチで効率的な空間的相互作用の探索
- Authors: Chenglizhao Chen, Guotao Wang, Chong Peng, Dingwen Zhang, Yuming Fang,
and Hong Qin
- Abstract要約: メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
- 参考スコア(独自算出の注目度): 87.32774157186412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current main stream methods formulate their video saliency mainly from
two independent venues, i.e., the spatial and temporal branches. As a
complementary component, the main task for the temporal branch is to
intermittently focus the spatial branch on those regions with salient
movements. In this way, even though the overall video saliency quality is
heavily dependent on its spatial branch, however, the performance of the
temporal branch still matter. Thus, the key factor to improve the overall video
saliency is how to further boost the performance of these branches efficiently.
In this paper, we propose a novel spatiotemporal network to achieve such
improvement in a full interactive fashion. We integrate a lightweight temporal
model into the spatial branch to coarsely locate those spatially salient
regions which are correlated with trustworthy salient movements. Meanwhile, the
spatial branch itself is able to recurrently refine the temporal model in a
multi-scale manner. In this way, both the spatial and temporal branches are
able to interact with each other, achieving the mutual performance improvement.
Our method is easy to implement yet effective, achieving high quality video
saliency detection in real-time speed with 50 FPS.
- Abstract(参考訳): 現在のメインストリーム法は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
補足的要素として、時間枝の主な課題は、空間枝を有能な動きのある領域に断続的に集中させることである。
このようにして、全体的なビデオのサリーエンシーの質は、その空間的分岐に大きく依存するが、時間的分岐の性能は依然として重要である。
したがって、ビデオ全体のサリーエンシーを改善する鍵となる要素は、これらのブランチのパフォーマンスを効率的に向上させる方法である。
本稿では,この改善を完全インタラクティブに実現するための,新たな時空間ネットワークを提案する。
我々は,空間枝に軽量な時間モデルを組み込んで,信頼に値する正解運動と相関する空間的に正解な領域を粗く見つける。
一方、空間分岐そのものは、時間モデルをマルチスケールで繰り返し洗練することができる。
このように、空間的分岐と時間的分岐の両方が相互に相互作用でき、相互のパフォーマンス向上が達成される。
提案手法は実装が容易で,50fpsのリアルタイム速度で高画質ビデオサリエンシー検出を実現する。
関連論文リスト
- Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Enhancing Space-time Video Super-resolution via Spatial-temporal Feature
Interaction [9.456643513690633]
時空ビデオ超解像(STVSR)の目的は、ビデオのフレームレートと空間解像度の両方を増加させることである。
近年のアプローチでは、エンドツーエンドのディープニューラルネットワークを用いてSTVSRを解く。
本研究では,空間的・時間的相関を利用してSTVSRを強化する空間的・時間的特徴相互作用ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-18T22:10:57Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。