Fugu-MT 論文翻訳(概要): Long-Video Audio Synthesis with Multi-Agent Collaboration

論文の概要: Long-Video Audio Synthesis with Multi-Agent Collaboration

arxiv url: http://arxiv.org/abs/2503.10719v1
Date: Thu, 13 Mar 2025 07:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:28.988793
Title: Long-Video Audio Synthesis with Multi-Agent Collaboration
Title（参考訳）: マルチエージェント協調による長時間ビデオ音声合成
Authors: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen,
Abstract要約: LVAS-Agentは、協調的な役割の専門化を通じてプロのダビングをエミュレートする新しいフレームワークである。提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。 LVAS-Benchは、さまざまなシナリオにまたがる207のプロ向け長編ビデオによる最初のベンチマークである。
参考スコア（独自算出の注目度）: 20.332328741375363
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video-to-audio synthesis, which generates synchronized audio for visual content, critically enhances viewer immersion and narrative coherence in film and interactive media. However, video-to-audio dubbing for long-form content remains an unsolved challenge due to dynamic semantic shifts, temporal misalignment, and the absence of dedicated datasets. While existing methods excel in short videos, they falter in long scenarios (e.g., movies) due to fragmented synthesis and inadequate cross-scene consistency. We propose LVAS-Agent, a novel multi-agent framework that emulates professional dubbing workflows through collaborative role specialization. Our approach decomposes long-video synthesis into four steps including scene segmentation, script generation, sound design and audio synthesis. Central innovations include a discussion-correction mechanism for scene/script refinement and a generation-retrieval loop for temporal-semantic alignment. To enable systematic evaluation, we introduce LVAS-Bench, the first benchmark with 207 professionally curated long videos spanning diverse scenarios. Experiments demonstrate superior audio-visual alignment over baseline methods.
Abstract（参考訳）: 映像コンテンツのための同期音声を生成するビデオ音声合成は、映像・インタラクティブメディアにおける視聴者の没入感と物語のコヒーレンスを著しく向上させる。しかし、ビデオからオーディオへのダビングは、動的なセマンティックシフト、時間的ミスアライメント、専用のデータセットがないため、未解決の課題である。既存のメソッドは短いビデオで優れているが、断片化された合成とシーン間の一貫性が不十分なため、長いシナリオ(例えば映画)でフェールする。 LVAS-Agentは、協調的な役割の専門化を通じてプロのダビングワークフローをエミュレートする新しいマルチエージェントフレームワークである。提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。中心的なイノベーションには、シーン/スクリプトの洗練のための議論の補正機構や、時間-意味的アライメントのための世代-検索ループが含まれる。 LVAS-Benchは,多種多様なシナリオにまたがる207のプロ向け長編ビデオを用いた最初のベンチマークである。実験はベースライン法よりも優れた音響・視覚アライメントを示す。

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
Learning to Highlight Audio by Watching Movies [37.9846964966927]
本稿では,映像が案内する適切なハイライト効果を実現するために音声を変換することを目的とした,視覚誘導型音声強調機能を提案する。私たちのモデルをトレーニングするために、映画に見られる巧妙なオーディオとビデオ制作を活用する、泥だらけのミックスデータセットも導入しました。定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
論文参考訳（メタデータ） (2025-05-17T22:03:57Z)
Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T17:34:06Z)
WikiVideo: Article Generation from Multiple Videos [67.59430517160065]
現実の出来事に関する複数のビデオから情報を集約する高レベルなウィキペディアスタイルの記事を自動的に作成する難題を提示する。 WikiVideoは、専門家が書いた記事と、記事の主張を裏付ける厳密な注釈付きビデオからなるベンチマークである。複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
論文参考訳（メタデータ） (2025-04-01T16:22:15Z)
ReelWave: A Multi-Agent Framework Toward Professional Movie Sound Generation [72.22243595269389]
映画制作は、複数のシーンを通してよりリッチなコンテキストを提供する、生成的オーディオにとって重要な応用である。本稿では,プロの映画制作プロセスに触発された音声生成のためのマルチエージェントフレームワークを提案する。本フレームワークは,映画から抽出したビデオクリップから,よりリッチな音声生成のコンテキストを捉えることができる。
論文参考訳（メタデータ） (2025-03-10T11:57:55Z)
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。 VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文参考訳（メタデータ） (2024-10-04T11:40:53Z)
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文参考訳（メタデータ） (2024-08-21T18:06:15Z)
MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。 MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。 MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文参考訳（メタデータ） (2024-06-15T10:47:36Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文参考訳（メタデータ） (2023-11-30T21:59:05Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文参考訳（メタデータ） (2022-09-07T13:40:08Z)
Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-23T16:57:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。