論文の概要: A Gated Fusion Network for Dynamic Saliency Prediction
- arxiv url: http://arxiv.org/abs/2102.07682v1
- Date: Mon, 15 Feb 2021 17:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 02:32:39.097080
- Title: A Gated Fusion Network for Dynamic Saliency Prediction
- Title(参考訳): 動的塩分濃度予測のためのGated Fusion Network
- Authors: Aysun Kocak, Erkut Erdem and Aykut Erdem
- Abstract要約: Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
- 参考スコア(独自算出の注目度): 16.701214795454536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting saliency in videos is a challenging problem due to complex
modeling of interactions between spatial and temporal information, especially
when ever-changing, dynamic nature of videos is considered. Recently,
researchers have proposed large-scale datasets and models that take advantage
of deep learning as a way to understand what's important for video saliency.
These approaches, however, learn to combine spatial and temporal features in a
static manner and do not adapt themselves much to the changes in the video
content. In this paper, we introduce Gated Fusion Network for dynamic saliency
(GFSalNet), the first deep saliency model capable of making predictions in a
dynamic way via gated fusion mechanism. Moreover, our model also exploits
spatial and channel-wise attention within a multi-scale architecture that
further allows for highly accurate predictions. We evaluate the proposed
approach on a number of datasets, and our experimental analysis demonstrates
that it outperforms or is highly competitive with the state of the art.
Importantly, we show that it has a good generalization ability, and moreover,
exploits temporal information more effectively via its adaptive fusion scheme.
- Abstract(参考訳): 映像のサリエンシーの予測は,時間的情報と空間的情報との相互作用を複雑にモデル化するため,特に映像の動的性質を考慮した場合,難しい課題である。
最近、研究者たちは深層学習を活用した大規模データセットとモデルを提案し、ビデオサリエンシーにとって何が重要なのかを理解する方法を提案しています。
しかし、これらのアプローチは、静的な方法で空間的特徴と時間的特徴を組み合わせることを学び、ビデオの内容の変化にあまり適応しない。
本稿では,ゲート融合機構を介して動的に予測を行うことのできる,最初のディープサリエンシーモデルであるGFSalNet(Gated Fusion Network for dynamic saliency)について紹介する。
さらに,マルチスケールアーキテクチャにおける空間的およびチャネル的注意を活用し,高精度な予測を可能にする。
提案手法をいくつかのデータセットで評価し,本研究では,その性能が最先端技術に匹敵する,あるいは競争力が高いことを実証した。
重要なことは、優れた一般化能力を持ち、適応融合方式により、時間情報をより効果的に活用できることである。
関連論文リスト
- Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
時空モードで特徴を符号化するアーキテクチャに依存しない手法を提案する。
固定時空モデルを作成し、ランダムノイズを伴う刺激映像を反復的に最適化する。
我々は,Kineetics-400で訓練された多種多様な進化的アテンションに基づくアーキテクチャを反転させることにより,LEAPSの適用性を定量的に定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Multi-agent Trajectory Prediction with Fuzzy Query Attention [15.12743751614964]
複数のエージェントを持つシーンの軌道予測は、交通予測、歩行者追跡、経路計画といった多くの領域において難しい問題である。
この課題に対処する一般的なアーキテクチャとして、運動の重要な帰納バイアス、すなわち慣性、相対運動、意図、相互作用をモデル化する。
論文 参考訳(メタデータ) (2020-10-29T19:12:12Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。