論文の概要: A Gated Fusion Network for Dynamic Saliency Prediction
- arxiv url: http://arxiv.org/abs/2102.07682v1
- Date: Mon, 15 Feb 2021 17:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 02:32:39.097080
- Title: A Gated Fusion Network for Dynamic Saliency Prediction
- Title(参考訳): 動的塩分濃度予測のためのGated Fusion Network
- Authors: Aysun Kocak, Erkut Erdem and Aykut Erdem
- Abstract要約: Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
- 参考スコア(独自算出の注目度): 16.701214795454536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting saliency in videos is a challenging problem due to complex
modeling of interactions between spatial and temporal information, especially
when ever-changing, dynamic nature of videos is considered. Recently,
researchers have proposed large-scale datasets and models that take advantage
of deep learning as a way to understand what's important for video saliency.
These approaches, however, learn to combine spatial and temporal features in a
static manner and do not adapt themselves much to the changes in the video
content. In this paper, we introduce Gated Fusion Network for dynamic saliency
(GFSalNet), the first deep saliency model capable of making predictions in a
dynamic way via gated fusion mechanism. Moreover, our model also exploits
spatial and channel-wise attention within a multi-scale architecture that
further allows for highly accurate predictions. We evaluate the proposed
approach on a number of datasets, and our experimental analysis demonstrates
that it outperforms or is highly competitive with the state of the art.
Importantly, we show that it has a good generalization ability, and moreover,
exploits temporal information more effectively via its adaptive fusion scheme.
- Abstract(参考訳): 映像のサリエンシーの予測は,時間的情報と空間的情報との相互作用を複雑にモデル化するため,特に映像の動的性質を考慮した場合,難しい課題である。
最近、研究者たちは深層学習を活用した大規模データセットとモデルを提案し、ビデオサリエンシーにとって何が重要なのかを理解する方法を提案しています。
しかし、これらのアプローチは、静的な方法で空間的特徴と時間的特徴を組み合わせることを学び、ビデオの内容の変化にあまり適応しない。
本稿では,ゲート融合機構を介して動的に予測を行うことのできる,最初のディープサリエンシーモデルであるGFSalNet(Gated Fusion Network for dynamic saliency)について紹介する。
さらに,マルチスケールアーキテクチャにおける空間的およびチャネル的注意を活用し,高精度な予測を可能にする。
提案手法をいくつかのデータセットで評価し,本研究では,その性能が最先端技術に匹敵する,あるいは競争力が高いことを実証した。
重要なことは、優れた一般化能力を持ち、適応融合方式により、時間情報をより効果的に活用できることである。
関連論文リスト
- On the Benefits of Instance Decomposition in Video Prediction Models [5.653106385738823]
最先端のビデオ予測手法は、通常、別個のオブジェクトに明示的に分解することなく、共同で暗黙的にシーンのダイナミクスをモデル化する。
ダイナミックなシーンのすべてのオブジェクトは独自の動きパターンを持ち、通常は他とは独立しているため、これは挑戦的であり、潜在的に準最適である。
本稿では,動的シーンにおけるオブジェクトを,潜在変換器による映像予測モデルの範囲内で明示的にモデル化する利点について検討する。
論文 参考訳(メタデータ) (2025-01-17T21:36:06Z) - Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。
このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。
結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文 参考訳(メタデータ) (2024-12-30T13:55:59Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Lightweight Stochastic Video Prediction via Hybrid Warping [10.448675566568086]
ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。
本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。
リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
論文 参考訳(メタデータ) (2024-12-04T06:33:27Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。