論文の概要: Temporal-Spatial Feature Pyramid for Video Saliency Detection
- arxiv url: http://arxiv.org/abs/2105.04213v1
- Date: Mon, 10 May 2021 09:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:51:55.411735
- Title: Temporal-Spatial Feature Pyramid for Video Saliency Detection
- Title(参考訳): ビデオ・サリエンシ検出のための時間空間特徴ピラミッド
- Authors: Qinyao Chang, Shiping Zhu, Lanyun Zhu
- Abstract要約: ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a 3D fully convolutional encoder-decoder
architecture for video saliency detection, which combines scale, space and time
information for video saliency modeling. The encoder extracts multi-scale
temporal-spatial features from the input continuous video frames, and then
constructs temporal-spatial feature pyramid through temporal-spatial
convolution and top-down feature integration. The decoder performs hierarchical
decoding of temporal-spatial features from different scales, and finally
produces a saliency map from the integration of multiple video frames. Our
model is simple yet effective, and can run in real time. We perform abundant
experiments, and the results indicate that the well-designed structure can
improve the precision of video saliency detection significantly. Experimental
results on three purely visual video saliency benchmarks and six audio-video
saliency benchmarks demonstrate that our method achieves state-of-theart
performance.
- Abstract(参考訳): 本稿では,ビデオサリエンシ・モデリングのためのスケール・空間・時間情報を組み合わせた,ビデオサリエンシ検出のための3次元完全畳み込みエンコーダ・デコーダ・アーキテクチャを提案する。
エンコーダは入力された連続ビデオフレームからマルチスケールの時間空間特徴を抽出し、時間空間畳み込みとトップダウン特徴統合により時間空間特徴ピラミッドを構築する。
デコーダは、異なるスケールから時間空間的特徴を階層的にデコードし、最終的に複数のビデオフレームの統合からサリエンシーマップを生成する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
実験は豊富に実施し, 良好な設計により, 映像塩分検出精度が大幅に向上することを示す。
3つの純粋ビジュアルビデオサリエンシーベンチマークと6つのオーディオビデオサリエンシーベンチマークの実験結果から,本手法が最先端の性能を達成できることが確認された。
関連論文リスト
- GaussianVideo: Efficient Video Representation via Hierarchical Gaussian Splatting [28.981174430968643]
本稿では,3次元ガウススプラッティングと連続カメラモーションモデリングを組み合わせたニューラル表現を提案する。
実験結果から,我々の階層的学習と堅牢なカメラモーションモデリングが組み合わさって,時間的一貫性の強い複雑な動的シーンを捉えていることがわかった。
このメモリ効率のアプローチは、印象的な速度で高品質なレンダリングを実現する。
論文 参考訳(メタデータ) (2025-01-08T19:01:12Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [62.6737516863285]
VideoLifterは、ビデオシーケンスから直接、グローバルスパースから高密度な3D表現に漸進的に最適化する新しいフレームワークである。
フレームやフラグメント間のスパースポイント対応の追跡と伝播によって、VideoLifterはカメラのポーズと3D構造を徐々に洗練する。
このアプローチは、視覚的忠実度と計算効率において、現在の最先端の手法を超越しながら、トレーニング時間を82%以上短縮する。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。