論文の概要: ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation
- arxiv url: http://arxiv.org/abs/2503.07217v2
- Date: Fri, 30 May 2025 08:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.345932
- Title: ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation
- Title(参考訳): ReelWave:マルチモーダルLLM会話によるマルチエージェント映画音生成
- Authors: Zixuan Wang, Chi-Keung Tang, Yu-Wing Tai,
- Abstract要約: 本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
- 参考スコア(独自算出の注目度): 72.22243595269389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current audio generation conditioned by text or video focuses on aligning audio with text/video modalities. Despite excellent alignment results, these multimodal frameworks still cannot be directly applied to compelling movie storytelling involving multiple scenes, where "on-screen" sounds require temporally-aligned audio generation, while "off-screen" sounds contribute to appropriate environment sounds accompanied by background music when applicable. Inspired by professional movie production, this paper proposes a multi-agentic framework for audio generation supervised by an autonomous Sound Director agent, engaging multi-turn conversations with other agents for on-screen and off-screen sound generation through multimodal LLM. To address on-screen sound generation, after detecting any talking humans in videos, we capture semantically and temporally synchronized sound by training a prediction model that forecasts interpretable, time-varying audio control signals: loudness, pitch, and timbre, which are used by a Foley Artist agent to condition a cross-attention module in the sound generation. The Foley Artist works cooperatively with the Composer and Voice Actor agents, and together they autonomously generate off-screen sound to complement the overall production. Each agent takes on specific roles similar to those of a movie production team. To temporally ground audio language models, in ReelWave, text/video conditions are decomposed into atomic, specific sound generation instructions synchronized with visuals when applicable. Consequently, our framework can generate rich and relevant audio content conditioned on video clips extracted from movies.
- Abstract(参考訳): テキストやビデオで条件付けされた現在の音声生成は、音声とテキスト/ビデオのモダリティの整合性に焦点を当てている。
優れたアライメント結果にもかかわらず、これらのマルチモーダル・フレームワークは、"オンスクリーン"サウンドは時間的に整合した音声生成を必要とし、"オフスクリーン"サウンドは、適用時にバックグラウンド音楽を伴う適切な環境音に寄与する、複数のシーンを含む魅力的な映画のストーリーテリングに直接適用することはできない。
本稿では,プロの映画制作に触発された自律型サウンドディレクタによる音声生成のためのマルチエージェントフレームワークを提案し,マルチモーダルLLMによるオンスクリーンおよびオフスクリーン音声生成のためのマルチターン会話を行う。
映像中の対話的人間を検知した後、音声生成におけるクロスアテンションモジュールの条件付けにFoley Artistエージェントが使用する、解釈可能な時間変化型音声制御信号(ラウドネス、ピッチ、音色)を予測する予測モデルをトレーニングし、意味的および時間的に同期された音をキャプチャする。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
各エージェントは、映画制作チームと同様の特定の役割を担います。
音声言語モデルにおいて、ReelWaveでは、テキスト/映像条件を、適用時に視覚と同期したアトミックな特定の音声生成命令に分解する。
これにより、映画から抽出した映像クリップに調和したリッチで関連性の高い音声コンテンツを生成することができる。
関連論文リスト
- Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - Long-Video Audio Synthesis with Multi-Agent Collaboration [20.332328741375363]
LVAS-Agentは、協調的な役割を通じてプロのダビングをエミュレートする新しいフレームワークである。
提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。
中心的なイノベーションには、シーン/スクリプトの洗練のための議論の補正機構や、時間-意味的アライメントのための世代-検索ループが含まれる。
論文 参考訳(メタデータ) (2025-03-13T07:58:23Z) - Automated Movie Generation via Multi-Agent CoT Planning [20.920129008402718]
MovieAgentは、CoT(Multi-agent Chain of Thought)計画による自動映画生成である。
コヒーレントな物語を持つマルチシーンでマルチショットのロングフォームビデオを生成し、文字の一貫性、同期字幕、安定したオーディオを保証します。
複数のLLMエージェントを使用して、ディレクター、脚本家、ストーリーボードアーティスト、ロケーションマネージャの役割をシミュレートすることで、MovieAgentはプロダクションパイプラインを合理化する。
論文 参考訳(メタデータ) (2025-03-10T13:33:27Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。