論文の概要: EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
- arxiv url: http://arxiv.org/abs/2512.24731v1
- Date: Wed, 31 Dec 2025 08:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.613826
- Title: EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
- Title(参考訳): EchoFoley:ビデオグラウンドの創造音生成のためのイベント中心階層制御
- Authors: Bingxuan Li, Yiming Cui, Yicheng He, Yiwei Wang, Shu Zhang, Longyin Wen, Yulei Niu,
- Abstract要約: 本稿では,イベントレベルの局所制御と階層的セマンティック制御を併用したビデオグラウンド音声生成のためのタスクであるEchoFoleyを紹介する。
発声イベントのシンボリック表現は、ビデオやインストラクション内で各音がいつ、何、どのように生成されるかを指定する。
実験の結果、EchoVidiaは最新のVT2Aモデルよりも40.7%、知覚品質は12.5%向上した。
- 参考スコア(独自算出の注目度): 33.6858214966905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound effects build an essential layer of multimodal storytelling, shaping the emotional atmosphere and the narrative semantics of videos. Despite recent advancement in video-text-to-audio (VT2A), the current formulation faces three key limitations: First, an imbalance between visual and textual conditioning that leads to visual dominance; Second, the absence of a concrete definition for fine-grained controllable generation; Third, weak instruction understanding and following, as existing datasets rely on brief categorical tags. To address these limitations, we introduce EchoFoley, a new task designed for video-grounded sound generation with both event level local control and hierarchical semantic control. Our symbolic representation for sounding events specifies when, what, and how each sound is produced within a video or instruction, enabling fine-grained controls like sound generation, insertion, and editing. To support this task, we construct EchoFoley-6k, a large-scale, expert-curated benchmark containing over 6,000 video-instruction-annotation triplets. Building upon this foundation, we propose EchoVidia a sounding-event-centric agentic generation framework with slow-fast thinking strategy. Experiments show that EchoVidia surpasses recent VT2A models by 40.7% in controllability and 12.5% in perceptual quality.
- Abstract(参考訳): サウンドエフェクトはマルチモーダルなストーリーテリングの不可欠なレイヤを構築し、感情的な雰囲気とビデオの物語的セマンティクスを形成する。
ビデオ・テキスト・トゥ・オーディオ(VT2A)の最近の進歩にもかかわらず、現在の定式化は3つの重要な制限に直面している。
これらの制約に対処するために,イベントレベルの局所制御と階層的セマンティック制御を併用したビデオグラウンド音声生成のための新しいタスクであるEchoFoleyを導入する。
発声イベントのシンボル表現は、ビデオや命令内で各音がいつ、何、どのように生成され、音の生成、挿入、編集などのきめ細かい制御を可能にするかを指定する。
このタスクを支援するために,6,000以上のビデオインストラクションアノテーションを含む大規模で専門家によるベンチマークであるEchoFoley-6kを構築した。
この基盤の上に構築されたEchoVidiaは,スローファストな思考戦略を備えた音響イベント中心のエージェント生成フレームワークである。
実験の結果、EchoVidiaは最新のVT2Aモデルよりも40.7%、知覚品質は12.5%向上した。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。