論文の概要: SalFoM: Dynamic Saliency Prediction with Video Foundation Models
- arxiv url: http://arxiv.org/abs/2404.03097v1
- Date: Wed, 3 Apr 2024 22:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:22:48.161646
- Title: SalFoM: Dynamic Saliency Prediction with Video Foundation Models
- Title(参考訳): SalFoM: ビデオファウンデーションモデルによる動的サリエンシ予測
- Authors: Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo,
- Abstract要約: ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。
本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。
本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
- 参考スコア(独自算出の注目度): 37.25208752620703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video saliency prediction (VSP) have shown promising performance compared to the human visual system, whose emulation is the primary goal of VSP. However, current state-of-the-art models employ spatio-temporal transformers trained on limited amounts of data, hindering generalizability adaptation to downstream tasks. The benefits of vision foundation models present a potential solution to improve the VSP process. However, adapting image foundation models to the video domain presents significant challenges in modeling scene dynamics and capturing temporal information. To address these challenges, and as the first initiative to design a VSP model based on video foundation models, we introduce SalFoM, a novel encoder-decoder video transformer architecture. Our model employs UnMasked Teacher (UMT) as feature extractor and presents a heterogeneous decoder which features a locality-aware spatio-temporal transformer and integrates local and global spatio-temporal information from various perspectives to produce the final saliency map. Our qualitative and quantitative experiments on the challenging VSP benchmark datasets of DHF1K, Hollywood-2 and UCF-Sports demonstrate the superiority of our proposed model in comparison with the state-of-the-art methods.
- Abstract(参考訳): 近年のVSPの進歩は人間の視覚システムと比較して有望な性能を示しており,そのエミュレーションがVSPの第一の目標となっている。
しかし、現在の最先端モデルは、限られた量のデータに基づいて訓練された時空間変換器を採用しており、下流タスクへの一般化を妨げている。
ビジョンファウンデーションモデルの利点は、VSPプロセスを改善する潜在的な解決策を提供する。
しかし,映像基礎モデルをビデオ領域に適応させることは,シーンのダイナミクスをモデル化し,時間的情報を取得する上で大きな課題となる。
これらの課題に対処し、ビデオファンデーションモデルに基づくVSPモデルを設計する最初の取り組みとして、新しいエンコーダデコーダビデオトランスフォーマアーキテクチャであるSalFoMを紹介する。
本モデルでは,UnMasked Teacher (UMT) を特徴抽出器として使用し,局所性を考慮した時空間変換器を特徴とする異種デコーダを提示し,各視点からの時空間情報と大域時空間情報を統合して最終的な時空間マップを作成する。
DHF1K, Hollywood-2, UCF-Sports の挑戦的 VSP ベンチマークデータセットに関する定性的および定量的実験により,提案モデルが最先端の手法と比較して優れていることを示す。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。
リモートセンシングのための様々な基礎モデルが開発されている。
本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文 参考訳(メタデータ) (2025-02-01T14:07:21Z) - VidFormer: A novel end-to-end framework fused by 3DCNN and Transformer for Video-based Remote Physiological Measurement [9.605944796068046]
本稿では、畳み込みネットワーク(CNN)とrタスクのモデルを統合する新しいフレームワークであるVidFormerを紹介する。
5つの公開データセットに対する評価は、VidFormerが現在のSOTA(State-of-the-art)メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-03T08:18:08Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Modular Blind Video Quality Assessment [33.657933680973194]
Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
本稿では,モジュール性向上のためのモジュール型BVQAモデルとトレーニング方法を提案する。
論文 参考訳(メタデータ) (2024-02-29T15:44:00Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction [16.14728977379756]
我々は,新しい残差ベクトル学習量子化変分オートエンコーダ(HR-VQE)と階層的自己回帰ベクトル予測モデル(AST-PM)を組み合わせた新しいモデルを提案する。
我々は,モデルサイズがはるかに小さいにもかかわらず,定量評価と定性評価の両面で,最先端のビデオ予測手法と比較して好意的に比較した。
論文 参考訳(メタデータ) (2023-07-13T11:58:27Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。