論文の概要: SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing
- arxiv url: http://arxiv.org/abs/2605.25193v1
- Date: Sun, 24 May 2026 17:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.957677
- Title: SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing
- Title(参考訳): SpongeBob: 同期対応の高音質なオーディオ画像生成編集
- Authors: Sen Liang, Cong Wang, Fengbin Guan, Zhentao Yu, Yiting Lu, Yuanzhi Wang, Yuan Zhou, Xin Li, Zhibo Chen,
- Abstract要約: SpongeBobは双方向のモーダルインタラクションを備えた、エンドツーエンドのオーディオ-視覚共同編集フレームワークである。
同期のために、Sync-Aware メカニズムは、双方向の注意、時間的アライメント、空間的制約を通じて、視覚的な編集を音のイベントと整列する。
コンテキスト整合性のために、Context-Aware Moduleは、意味的な衝突を避けるために、音響的および視覚的コンテキストの注意を利用する。
実験の結果、SpngeBobは既存のベースラインを大幅に上回り、Sync-Cは30%、Ctx-F1は12.5%改善した。
- 参考スコア(独自算出の注目度): 28.30085551639921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual and acoustic events in the physical world are inherently coupled, yet existing video editing methods typically adopt decoupled pipelines, lacking bidirectional modality interaction. This results in two key limitations: (i) audio-visual desynchronization and (ii) contextual conflicts between generated audio and preserved content. To address these, we propose SpongeBob, the first end-to-end audio-visual joint editing framework featuring bidirectional cross-modal interaction. For synchronization, a Sync-Aware Mechanism aligns visual edits with sound events via bidirectional attention, temporal alignment, and spatial constraints. For contextual consistency, a Context-Aware Module leverages acoustic and visual context attention to prevent semantic clashes. Additionally, we introduce Sync-Preserving Training and Guidance (SPTG) to enhance alignment without degrading quality. Due to the scarcity of paired data, we construct a scalable data pipeline and a large-scale subject-level dataset. We also propose SpongeBob-Bench for systematic evaluation. Experiments show SpongeBob significantly outperforms existing baselines, improving Sync-C by 30% and Ctx-F1 by 12.5%. Our project page is available at: https://hy-spongebob.github.io/.
- Abstract(参考訳): 物理的世界における視覚的および音響的事象は本質的に結合しているが、既存のビデオ編集手法は典型的には切り離されたパイプラインを採用しており、双方向のモダリティ相互作用が欠如している。
これにより、2つの重要な制限が生じる。
(i)音声と視覚の同期
(II)生成された音声と保存されたコンテンツの文脈的衝突。
そこで本稿では,双方向のモーダルインタラクションを特徴とする初のエンドツーエンド音声-視覚共同編集フレームワークであるSpngeBobを提案する。
同期のために、Sync-Aware メカニズムは、双方向の注意、時間的アライメント、空間的制約を通じて、視覚的な編集を音のイベントと整列する。
コンテキスト整合性のために、Context-Aware Moduleは、意味的な衝突を避けるために、音響的および視覚的コンテキストの注意を利用する。
また,SPTG(Sync-Preserving Training and Guidance)を導入し,品質を劣化させることなくアライメントを向上させる。
ペアデータが少ないため、スケーラブルなデータパイプラインと大規模対象レベルのデータセットを構築します。
また,システム評価のためのSpngeBob-Benchを提案する。
実験の結果、SpngeBobは既存のベースラインを大幅に上回り、Sync-Cは30%、Ctx-F1は12.5%改善した。
私たちのプロジェクトページは、https://hy-spongebob.github.io/.com/で公開されています。
関連論文リスト
- CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation [35.44526708016307]
V2M-Zero(V2M-Zero)は、ビデオのためのタイムアラインな音楽を出力するゼロペア・ビデオ・ツー・ミュージック・ジェネレーションのアプローチである。
我々の手法は重要な観測によって動機付けられている: 時間同期は、いつ、どのくらいの変化が起こるかではなく、いつ、どのくらいの変化が起こるかの一致を必要とする。
論文 参考訳(メタデータ) (2026-03-11T17:59:40Z) - JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective [15.69417162113696]
AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-15T15:34:02Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文 参考訳(メタデータ) (2025-06-09T17:59:42Z) - JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文 参考訳(メタデータ) (2025-03-30T09:40:42Z) - UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。
我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。
UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-03-20T17:16:03Z) - Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation [39.38821481268827]
AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。
現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。
本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
論文 参考訳(メタデータ) (2024-12-11T07:33:18Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。