論文の概要: Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
- arxiv url: http://arxiv.org/abs/2512.02457v1
- Date: Tue, 02 Dec 2025 06:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.747745
- Title: Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
- Title(参考訳): 聴覚は音を聴くのに役立つか?
- Authors: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang,
- Abstract要約: 本稿では,事前に訓練したテキスト・トゥ・ビデオ(T2V)とテキスト・トゥ・オーディオ(T2A)モジュールを併用した,パラメータ効率のよいAVFullDiT(Audio-Video Full DiT)アーキテクチャを提案する。
以上の結果から,音声とビデオの関節装飾が同期以上の効果をもたらすという,最初の体系的な証拠が得られた。
- 参考スコア(独自算出の注目度): 9.429846067972473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision $\times$ impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
- Abstract(参考訳): 近年のオーディオ・ビデオ生成システムでは、カップリングモダリティは、オーディオ・ビデオ同期だけでなく、ビデオ・モダリティ自体にもメリットがあることが示唆されている。
ビデオ品質だけを気にしても、オーディオとビデオのジョイントデノイングトレーニングはビデオ生成を改善するのか?
そこで本研究では,事前に訓練したテキスト・トゥ・ビデオ(T2V)とテキスト・トゥ・オーディオ(T2A)モジュールを併用した,パラメータ効率の高いオーディオ・ビデオ・フル・ディT(AVFullDiT)アーキテクチャを提案する。
私たちは訓練します
(i)AVFullDiTとT2AVモデル
(ii)同じ設定でT2Vのみに対応。
以上の結果から,音声とビデオの関節装飾が同期以上の効果をもたらすという,最初の体系的な証拠が得られた。
大規模および物体の接触動作を特徴とする難解な部分集合に対する一貫した改善を観察する。
音声予測は特権的な信号として機能し、視覚事象とその音響的結果(例えば、衝突$\times$ Impact Sound)の因果関係を内包するようモデルに促す。
以上の結果から,クロスモーダルコトレーニングは,より強く,より物理的に根ざした世界モデルを開発するための,有望なアプローチであることが示唆された。
コードとデータセットが公開されている。
関連論文リスト
- AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation [27.9571263633586]
本稿では,VinTAGeについて紹介する。VinTAGeは,テキストと動画を共同で検討し,音声生成のガイドを行うフローベーストランスフォーマーモデルである。
私たちのフレームワークは、Visual-TextとJoint VT-SiTモデルという2つの重要なコンポーネントで構成されています。
VinTAGe-Benchは、636対のビデオテキストとオーディオのデータセットで、オンスクリーンとオフスクリーンの両方の音が含まれている。
論文 参考訳(メタデータ) (2024-12-14T09:36:10Z) - Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。