論文の概要: Sound2Sight: Generating Visual Dynamics from Sound and Context
- arxiv url: http://arxiv.org/abs/2007.12130v1
- Date: Thu, 23 Jul 2020 16:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:20:25.738373
- Title: Sound2Sight: Generating Visual Dynamics from Sound and Context
- Title(参考訳): Sound2Sight: 音とコンテキストから視覚ダイナミクスを生成する
- Authors: Anoop Cherian, Moitreya Chatterjee, Narendra Ahuja
- Abstract要約: 本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 36.38300120482868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning associations across modalities is critical for robust multimodal
reasoning, especially when a modality may be missing during inference. In this
paper, we study this problem in the context of audio-conditioned visual
synthesis -- a task that is important, for example, in occlusion reasoning.
Specifically, our goal is to generate future video frames and their motion
dynamics conditioned on audio and a few past frames. To tackle this problem, we
present Sound2Sight, a deep variational framework, that is trained to learn a
per frame stochastic prior conditioned on a joint embedding of audio and past
frames. This embedding is learned via a multi-head attention-based audio-visual
transformer encoder. The learned prior is then sampled to further condition a
video forecasting module to generate future frames. The stochastic prior allows
the model to sample multiple plausible futures that are consistent with the
provided audio and the past context. Moreover, to improve the quality and
coherence of the generated frames, we propose a multimodal discriminator that
differentiates between a synthesized and a real audio-visual clip. We
empirically evaluate our approach, vis-\'a-vis closely-related prior methods,
on two new datasets viz. (i) Multimodal Stochastic Moving MNIST with a Surprise
Obstacle, (ii) Youtube Paintings; as well as on the existing Audio-Set Drums
dataset. Our extensive experiments demonstrate that Sound2Sight significantly
outperforms the state of the art in the generated video quality, while also
producing diverse video content.
- Abstract(参考訳): モダリティ間の学習関係は、特に推論中にモダリティが欠落している場合、堅牢なマルチモーダル推論において重要である。
本稿では,この課題を,例えば咬合推論において重要な課題である視聴覚合成の文脈で検討する。
特に私たちの目標は、将来のビデオフレームと、オーディオといくつかの過去のフレームを前提としたモーションダイナミクスを生成することです。
この問題に対処するため,我々は,オーディオと過去のフレームの組込みを前提としたフレーム毎の確率的事前学習を訓練した,深い変動フレームワークであるsound2sightを提案する。
この埋め込みはマルチヘッドアテンションベースのオーディオ・ビジュアルトランスフォーマエンコーダを通じて学習される。
次に学習された事前をサンプリングし、さらにビデオ予測モジュールを条件付けして将来のフレームを生成する。
確率的事前は、提供された音声と過去の文脈と整合した複数の可算な未来をサンプルすることができる。
さらに,生成したフレームの品質とコヒーレンスを向上させるため,合成された映像クリップと実際の映像クリップを区別するマルチモーダル判別器を提案する。
提案手法である vis-\'a-vis を2つの新しいデータセット viz 上で実験的に評価した。
(i)サプライズ障害物を用いたマルチモーダル確率移動MNIST
(ii)Youtube Paintings、および既存のAudio-Set Drumsデータセット。
大規模な実験により、Sound2Sightは生成したビデオの質において、アートの状態を著しく上回り、同時に多様なビデオコンテンツを生み出していることがわかった。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。