論文の概要: Audio-Synchronized Visual Animation
- arxiv url: http://arxiv.org/abs/2403.05659v1
- Date: Fri, 8 Mar 2024 20:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:04:32.881561
- Title: Audio-Synchronized Visual Animation
- Title(参考訳): 音響同期視覚アニメーション
- Authors: Lin Zhang, Shentong Mo, Yijing Zhang, Pedro Morgado
- Abstract要約: 本稿では,静的な画像をアニメーションして動きのダイナミクスを実演するAudio Synchronized Visual Animation (ASVA)を紹介する。
本稿では,VGGSoundから収集したデータセットであるAVSync15について紹介する。
また、オーディオによって誘導される動的アニメーションを生成することができる拡散モデルAVSyncDを提案する。
- 参考スコア(独自算出の注目度): 22.490766897969934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current visual generation methods can produce high quality videos guided by
texts. However, effectively controlling object dynamics remains a challenge.
This work explores audio as a cue to generate temporally synchronized image
animations. We introduce Audio Synchronized Visual Animation (ASVA), a task
animating a static image to demonstrate motion dynamics, temporally guided by
audio clips across multiple classes. To this end, we present AVSync15, a
dataset curated from VGGSound with videos featuring synchronized audio visual
events across 15 categories. We also present a diffusion model, AVSyncD,
capable of generating dynamic animations guided by audios. Extensive
evaluations validate AVSync15 as a reliable benchmark for synchronized
generation and demonstrate our models superior performance. We further explore
AVSyncDs potential in a variety of audio synchronized generation tasks, from
generating full videos without a base image to controlling object motions with
various sounds. We hope our established benchmark can open new avenues for
controllable visual generation. More videos on project webpage
https://lzhangbj.github.io/projects/asva/asva.html.
- Abstract(参考訳): 現在のビジュアル生成手法は、テキストで誘導された高品質なビデオを生成することができる。
しかし、オブジェクトのダイナミクスを効果的に制御することは依然として困難である。
本研究は,音声を時間同期画像アニメーション生成のための手掛かりとして探究する。
我々は,複数のクラスにまたがる音声クリップによって時間的に導かれる静的画像のアニメーション化タスクであるオーディオ同期ビジュアルアニメーション(asva)を紹介する。
この目的のために、vggsoundからキュレートされたデータセットであるavsync15を15のカテゴリにまたがって同期したオーディオビジュアルイベントを特徴とするビデオで紹介する。
また、オーディオによって誘導される動的アニメーションを生成することができる拡散モデルAVSyncDを提案する。
AVSync15を同期生成の信頼性ベンチマークとして評価し,本モデルの性能評価を行った。
さらに、ベース画像のないフルビデオ生成から、様々な音で物体の動きを制御するまで、様々なオーディオ同期生成タスクにおけるAVSyncDの可能性を探る。
確立されたベンチマークが、制御可能なビジュアル生成のための新しい道を開くことを願っています。
プロジェクトのWebページ https://lzhangbj.github.io/projects/asva/asva.html
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos [3.6078215038168473]
EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。
サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
論文 参考訳(メタデータ) (2024-07-30T06:57:00Z) - Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。