論文の概要: Video Saliency Prediction Using Enhanced Spatiotemporal Alignment
Network
- arxiv url: http://arxiv.org/abs/2001.00292v1
- Date: Thu, 2 Jan 2020 02:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:12:26.698328
- Title: Video Saliency Prediction Using Enhanced Spatiotemporal Alignment
Network
- Title(参考訳): 時空間アライメントネットワークの強化による映像サリエンシー予測
- Authors: Jin Chen, Huihui Song, Kaihua Zhang, Bo Liu, Qingshan Liu
- Abstract要約: ビデオ・サリエンシ予測に適した効果的な機能アライメント・ネットワーク(V)を開発した。
ネットワークは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学ぶ。
提案したモデルはポスト処理なしでエンドツーエンドで訓練される。
- 参考スコア(独自算出の注目度): 35.932447204088845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to a variety of motions across different frames, it is highly challenging
to learn an effective spatiotemporal representation for accurate video saliency
prediction (VSP). To address this issue, we develop an effective spatiotemporal
feature alignment network tailored to VSP, mainly including two key
sub-networks: a multi-scale deformable convolutional alignment network (MDAN)
and a bidirectional convolutional Long Short-Term Memory (Bi-ConvLSTM) network.
The MDAN learns to align the features of the neighboring frames to the
reference one in a coarse-to-fine manner, which can well handle various
motions. Specifically, the MDAN owns a pyramidal feature hierarchy structure
that first leverages deformable convolution (Dconv) to align the
lower-resolution features across frames, and then aggregates the aligned
features to align the higher-resolution features, progressively enhancing the
features from top to bottom. The output of MDAN is then fed into the
Bi-ConvLSTM for further enhancement, which captures the useful long-time
temporal information along forward and backward timing directions to
effectively guide attention orientation shift prediction under complex scene
transformation. Finally, the enhanced features are decoded to generate the
predicted saliency map. The proposed model is trained end-to-end without any
intricate post processing. Extensive evaluations on four VSP benchmark datasets
demonstrate that the proposed method achieves favorable performance against
state-of-the-art methods. The source codes and all the results will be
released.
- Abstract(参考訳): 異なるフレームにまたがる様々な動きにより、正確なビデオサリエンシ予測(VSP)のための効果的な時空間表現を学習することは極めて困難である。
この問題に対処するために、主に2つの重要なサブネットワーク、MDAN(Multi-scale deformable convolutional alignment network)とBi-ConvLSTM(Bi-ConvLSTM)ネットワークを含む、VSPに適した効果的な時空間特徴アライメントネットワークを開発する。
MDANは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学び、様々な動きをうまく扱えるようにした。
具体的には、MDANは、まず変形可能な畳み込み(Dconv)を活用して、フレーム間の低解像度特徴を整列させ、次に、高解像度特徴を整列するために整列した特徴を集約し、上から下へ徐々に機能を強化するピラミッド的特徴階層構造を持っている。
MDANの出力をBi-ConvLSTMに入力してさらなる拡張を行い、複雑なシーン変換下での注意方向シフト予測を効果的に導くために、前向きと後向きのタイミング方向に沿って有用な時間的情報をキャプチャする。
最後に、拡張された機能はデコードされ、予測された精度マップを生成する。
提案したモデルは複雑な後処理なしでエンドツーエンドで訓練される。
4つのVSPベンチマークデータセットの大規模な評価は,提案手法が最先端手法に対して良好な性能を発揮することを示す。
ソースコードとすべての結果がリリースされます。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Deep Recurrent Neural Network with Multi-scale Bi-directional
Propagation for Video Deblurring [36.94523101375519]
本稿では,RNN-MBP(Multiscale Bi-directional Propagation)を用いたディープリカレントニューラルネットワークを提案する。
提案したアルゴリズムと既存の最先端の手法を現実世界のぼやけたシーンでよりよく評価するために、リアルワールドのぼやけたビデオデータセットも作成する。
提案アルゴリズムは3つの典型的なベンチマークにおける最先端の手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-09T11:02:56Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。