Fugu-MT 論文翻訳(概要): A Gated Fusion Network for Dynamic Saliency Prediction

論文の概要: A Gated Fusion Network for Dynamic Saliency Prediction

arxiv url: http://arxiv.org/abs/2102.07682v1
Date: Mon, 15 Feb 2021 17:18:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 02:32:39.097080
Title: A Gated Fusion Network for Dynamic Saliency Prediction
Title（参考訳）: 動的塩分濃度予測のためのGated Fusion Network
Authors: Aysun Kocak, Erkut Erdem and Aykut Erdem
Abstract要約: Gated Fusion Network for dynamic saliency (GFSalNet) GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
参考スコア（独自算出の注目度）: 16.701214795454536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting saliency in videos is a challenging problem due to complex modeling of interactions between spatial and temporal information, especially when ever-changing, dynamic nature of videos is considered. Recently, researchers have proposed large-scale datasets and models that take advantage of deep learning as a way to understand what's important for video saliency. These approaches, however, learn to combine spatial and temporal features in a static manner and do not adapt themselves much to the changes in the video content. In this paper, we introduce Gated Fusion Network for dynamic saliency (GFSalNet), the first deep saliency model capable of making predictions in a dynamic way via gated fusion mechanism. Moreover, our model also exploits spatial and channel-wise attention within a multi-scale architecture that further allows for highly accurate predictions. We evaluate the proposed approach on a number of datasets, and our experimental analysis demonstrates that it outperforms or is highly competitive with the state of the art. Importantly, we show that it has a good generalization ability, and moreover, exploits temporal information more effectively via its adaptive fusion scheme.
Abstract（参考訳）: 映像のサリエンシーの予測は,時間的情報と空間的情報との相互作用を複雑にモデル化するため,特に映像の動的性質を考慮した場合,難しい課題である。最近、研究者たちは深層学習を活用した大規模データセットとモデルを提案し、ビデオサリエンシーにとって何が重要なのかを理解する方法を提案しています。しかし、これらのアプローチは、静的な方法で空間的特徴と時間的特徴を組み合わせることを学び、ビデオの内容の変化にあまり適応しない。本稿では,ゲート融合機構を介して動的に予測を行うことのできる,最初のディープサリエンシーモデルであるGFSalNet(Gated Fusion Network for dynamic saliency)について紹介する。さらに,マルチスケールアーキテクチャにおける空間的およびチャネル的注意を活用し,高精度な予測を可能にする。提案手法をいくつかのデータセットで評価し,本研究では,その性能が最先端技術に匹敵する,あるいは競争力が高いことを実証した。重要なことは、優れた一般化能力を持ち、適応融合方式により、時間情報をより効果的に活用できることである。

関連論文リスト

On the Benefits of Instance Decomposition in Video Prediction Models [5.653106385738823]
最先端のビデオ予測手法は、通常、別個のオブジェクトに明示的に分解することなく、共同で暗黙的にシーンのダイナミクスをモデル化する。ダイナミックなシーンのすべてのオブジェクトは独自の動きパターンを持ち、通常は他とは独立しているため、これは挑戦的であり、潜在的に準最適である。本稿では,動的シーンにおけるオブジェクトを,潜在変換器による映像予測モデルの範囲内で明示的にモデル化する利点について検討する。
論文参考訳（メタデータ） (2025-01-17T21:36:06Z)
Multi-Head Self-Attending Neural Tucker Factorization [5.734615417239977]
本稿では,高次元および不完全(HDI)テンソルの学習表現に適したニューラルネットワークに基づくテンソル分解手法を提案する。提案したMSNTucFモデルでは,観測結果の欠落を推定する上で,最先端のベンチマークモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T13:04:15Z)
Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文参考訳（メタデータ） (2024-12-30T13:55:59Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Lightweight Stochastic Video Prediction via Hybrid Warping [10.448675566568086]
ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
論文参考訳（メタデータ） (2024-12-04T06:33:27Z)
Characterized Diffusion Networks for Enhanced Autonomous Driving Trajectory Prediction [0.6202955567445396]
本稿では,自律走行のための新しい軌道予測モデルを提案する。本モデルは,不確実性推定と複雑なエージェント相互作用を組み込むことにより,軌道予測の精度と信頼性を向上させる。提案モデルでは,実環境における自律走行システムへの応用の可能性を示す。
論文参考訳（メタデータ） (2024-11-25T15:03:44Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文参考訳（メタデータ） (2023-03-17T12:55:22Z)
Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文参考訳（メタデータ） (2022-05-24T08:36:25Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文参考訳（メタデータ） (2022-04-25T11:12:37Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文参考訳（メタデータ） (2021-05-17T15:33:25Z)
Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文参考訳（メタデータ） (2020-06-09T17:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。