論文の概要: Motion and Context-Aware Audio-Visual Conditioned Video Prediction
- arxiv url: http://arxiv.org/abs/2212.04679v3
- Date: Wed, 20 Sep 2023 11:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 00:36:14.721307
- Title: Motion and Context-Aware Audio-Visual Conditioned Video Prediction
- Title(参考訳): 動きと文脈対応音声・視覚条件付き映像予測
- Authors: Yating Xu, Conghui Hu, Gim Hee Lee
- Abstract要約: 視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
- 参考スコア(独自算出の注目度): 58.9467115916639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existing state-of-the-art method for audio-visual conditioned video
prediction uses the latent codes of the audio-visual frames from a multimodal
stochastic network and a frame encoder to predict the next visual frame.
However, a direct inference of per-pixel intensity for the next visual frame is
extremely challenging because of the high-dimensional image space. To this end,
we decouple the audio-visual conditioned video prediction into motion and
appearance modeling. The multimodal motion estimation predicts future optical
flow based on the audio-motion correlation. The visual branch recalls from the
motion memory built from the audio features to enable better long term
prediction. We further propose context-aware refinement to address the
diminishing of the global appearance context in the long-term continuous
warping. The global appearance context is extracted by the context encoder and
manipulated by motion-conditioned affine transformation before fusion with
features of warped frames. Experimental results show that our method achieves
competitive results on existing benchmarks.
- Abstract(参考訳): 本手法では,マルチモーダル確率ネットワークとフレームエンコーダから音声視覚フレームの潜時符号を用いて,次の視覚フレームを予測する。
しかし、高次元画像空間のため、次の視覚フレームの画素当たりの強度の直接推定は極めて困難である。
この目的のために、音声条件付き映像予測を動きと外観モデリングに分離する。
マルチモーダルモーション推定は、音声と運動の相関に基づいて将来の光流れを予測する。
視覚ブランチは、オーディオ機能から構築されたモーションメモリからリコールし、長期的な予測をより良くする。
さらに,長期連続ワープにおけるグローバルな出現状況の減少に対処するために,文脈対応の改良を提案する。
グローバル外観コンテキストはコンテキストエンコーダによって抽出され、ワープフレームの特徴と融合する前にモーションコンディション付きアフィン変換によって操作される。
実験の結果,提案手法は既存のベンチマークで競合する結果が得られることがわかった。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。