論文の概要: Klear: Unified Multi-Task Audio-Video Joint Generation
- arxiv url: http://arxiv.org/abs/2601.04151v1
- Date: Wed, 07 Jan 2026 18:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.226325
- Title: Klear: Unified Multi-Task Audio-Video Joint Generation
- Title(参考訳): Klear:マルチタスク・オーディオ・ビデオのジョイント・ジェネレーション
- Authors: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan,
- Abstract要約: 非商業的アプローチは、音声・視覚的非同期性、唇・音声のアライメントの低さ、そして一過性の劣化に悩まされている。
モデルアーキテクチャ、トレーニング戦略、データキュレーションの3つにKlearとDelveを導入します。
データセットについては,大容量キャプションを用いた最初の大規模オーディオビデオデータセットを提示する。
- 参考スコア(独自算出の注目度): 20.914306214716042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.
- Abstract(参考訳): オーディオとビデオのジョイントジェネレーションは急速に進歩しているが、依然として大きな課題が残っている。
非商業的アプローチは、音声-視覚の非同期性、唇-音声のアライメントの低さ、そして、音声-視覚対応モデリングの弱さ、一般化の制限、高品質の高精細化データ不足から起因し得る、単調な劣化に苦しむ。
これらの問題に対処するため、モデルアーキテクチャ、トレーニング戦略、データキュレーションの3つの軸にKlearとDelveを導入します。
アーキテクチャ的には、統合されたDiTブロックとOmni-Fullアテンション機構を備えた単一トウワー設計を採用し、密集したオーディオ視覚アライメントと強力なスケーラビリティを実現する。
学習面では、タスク間の共同最適化にランダムなモダリティマスキング、多段階カリキュラムを採用し、ロバストな表現を生み出し、A-V対応の世界知識を強化し、不死の崩壊を防ぐ。
データセットには,高密度キャプションを備えた最初の大規模オーディオビデオデータセットと,多種多様な高品質で厳格に整合したオーディオビデオキャプチャ三重奏団を注釈・フィルタリングする,新しい自動データ構築パイプラインを提案する。
これに基づいてKlearは、大規模なデータセットにスケールし、意味的かつ時間的に整合した、命令追従生成をジョイントとアンモダルの両方で提供し、配布外のシナリオに堅牢に一般化する。
タスク全体にわたって、従来のメソッドを大きなマージンで大幅に上回り、Veo 3に匹敵するパフォーマンスを実現し、次世代オーディオビデオ合成への統一的でスケーラブルなパスを提供する。
関連論文リスト
- Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [14.921126281071544]
HunyuanVideo-Foleyはエンドツーエンドのテキスト・ビデオ・オーディオ・フレームワークである。
高忠実度オーディオを視覚力学や意味文脈と正確に整合させて合成する。
音声の忠実度、視覚的セマンティックなアライメント、時間的アライメント、分布マッチングにまたがる新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-23T07:30:18Z) - Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation [14.28357169715152]
本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
論文 参考訳(メタデータ) (2024-10-02T14:32:24Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。