論文の概要: Temporal-Spatial Feature Pyramid for Video Saliency Detection
- arxiv url: http://arxiv.org/abs/2105.04213v1
- Date: Mon, 10 May 2021 09:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:51:55.411735
- Title: Temporal-Spatial Feature Pyramid for Video Saliency Detection
- Title(参考訳): ビデオ・サリエンシ検出のための時間空間特徴ピラミッド
- Authors: Qinyao Chang, Shiping Zhu, Lanyun Zhu
- Abstract要約: ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a 3D fully convolutional encoder-decoder
architecture for video saliency detection, which combines scale, space and time
information for video saliency modeling. The encoder extracts multi-scale
temporal-spatial features from the input continuous video frames, and then
constructs temporal-spatial feature pyramid through temporal-spatial
convolution and top-down feature integration. The decoder performs hierarchical
decoding of temporal-spatial features from different scales, and finally
produces a saliency map from the integration of multiple video frames. Our
model is simple yet effective, and can run in real time. We perform abundant
experiments, and the results indicate that the well-designed structure can
improve the precision of video saliency detection significantly. Experimental
results on three purely visual video saliency benchmarks and six audio-video
saliency benchmarks demonstrate that our method achieves state-of-theart
performance.
- Abstract(参考訳): 本稿では,ビデオサリエンシ・モデリングのためのスケール・空間・時間情報を組み合わせた,ビデオサリエンシ検出のための3次元完全畳み込みエンコーダ・デコーダ・アーキテクチャを提案する。
エンコーダは入力された連続ビデオフレームからマルチスケールの時間空間特徴を抽出し、時間空間畳み込みとトップダウン特徴統合により時間空間特徴ピラミッドを構築する。
デコーダは、異なるスケールから時間空間的特徴を階層的にデコードし、最終的に複数のビデオフレームの統合からサリエンシーマップを生成する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
実験は豊富に実施し, 良好な設計により, 映像塩分検出精度が大幅に向上することを示す。
3つの純粋ビジュアルビデオサリエンシーベンチマークと6つのオーディオビデオサリエンシーベンチマークの実験結果から,本手法が最先端の性能を達成できることが確認された。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition [0.0]
一般的な超音波タスクにおいて,より優れたサンプリング効率を実現するために,新しいマルチヘッドアテンションアーキテクチャを提案する。
アーキテクチャの性能を2つの設定で効率的な3次元CNNビデオ認識モデルと比較する。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルの方が最先端の映像認識モデルよりも有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-16T14:35:29Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。