論文の概要: Motion and Context-Aware Audio-Visual Conditioned Video Prediction
- arxiv url: http://arxiv.org/abs/2212.04679v1
- Date: Fri, 9 Dec 2022 05:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:12:23.771097
- Title: Motion and Context-Aware Audio-Visual Conditioned Video Prediction
- Title(参考訳): 動きと文脈対応音声・視覚条件付き映像予測
- Authors: Yating Xu, Gim Hee Lee
- Abstract要約: 本稿では,視覚条件付き映像予測を動作モデルと外観モデルに分離することを提案する。
第1部は、所定のオーディオ映像クリップから運動情報を光学的フローとして学習するマルチモーダルモーション推定モジュールである。
第2の部分は、予測された光の流れを使って、現在のビジュアルフレームを次のビジュアルフレームにワープするコンテキスト認識リファインメントモジュールである。
- 参考スコア(独自算出の注目度): 70.00284265947234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing state-of-the-art method for audio-visual conditioned video
prediction uses the latent codes of the audio-visual frames from a multimodal
stochastic network and a frame encoder to predict the next visual frame.
However, a direct inference of per-pixel intensity for the next visual frame
from the latent codes is extremely challenging because of the high-dimensional
image space. To this end, we propose to decouple the audio-visual conditioned
video prediction into motion and appearance modeling. The first part is the
multimodal motion estimation module that learns motion information as optical
flow from the given audio-visual clip. The second part is the context-aware
refinement module that uses the predicted optical flow to warp the current
visual frame into the next visual frame and refines it base on the given
audio-visual context. Experimental results show that our method achieves
competitive results on existing benchmarks.
- Abstract(参考訳): 既存の音声視覚条件付きビデオ予測の最先端手法では、マルチモーダル確率ネットワークとフレームエンコーダからオーディオ視覚フレームの潜時符号を用いて次の視覚フレームを予測する。
しかし、高次元画像空間のため、潜在コードから次の視覚フレームに対するピクセル当たりの強度の直接推定は極めて困難である。
そこで本研究では,視覚条件付き映像予測を動作・外観モデルに分離することを提案する。
第1部は、所定のオーディオ映像クリップから運動情報を光学的フローとして学習するマルチモーダルモーション推定モジュールである。
第2の部分は、予測された光フローを使用して、現在の視覚的フレームを次の視覚的フレームにワープし、所定のオーディオ視覚的コンテキストに基づいて洗練する、コンテキスト対応リファインメントモジュールである。
実験の結果,提案手法は既存のベンチマークで競合する結果が得られることがわかった。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。