論文の概要: InstructAV2AV: Instruction-Guided Audio-Video Joint Editing
- arxiv url: http://arxiv.org/abs/2605.18467v1
- Date: Mon, 18 May 2026 14:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.718474
- Title: InstructAV2AV: Instruction-Guided Audio-Video Joint Editing
- Title(参考訳): InstructAV2AV:インストラクションガイドによるオーディオビデオ共同編集
- Authors: Haojie Zheng, Yixin Yang, Siqi Yang, Shuchen Weng, Boxin Shi,
- Abstract要約: InstructAV2AVは,インストラクション誘導型オーディオビデオ共同編集のためのエンドツーエンドフレームワークである。
まず、スケーラブルなデータ合成パイプラインを開発し、最初の大規模オーディオビデオ編集データセットであるInsAVEを構築した。
InstructAV2AVは、2つの評価セットで3つの側面にまたがる11のメトリクスで最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 51.67847766136283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based methods have achieved impressive progress in video content manipulation. However, they typically ignore the accompanying audio, leaving the audio disjointed from the edited results. In this paper, we propose InstructAV2AV, the first end-to-end framework for instruction-guided audio-video joint editing. We first develop a scalable data synthesis pipeline and construct InsAVE-80K, the first large-scale audio-video editing dataset with high-quality source-to-target pairs. With this data foundation, we adapt an audio-video generation backbone to leverage its robust priors. We concatenate the audio-video input with noisy latent codes to anchor the source context, propose the source-instruction gated attention to improve instruction following and content preservation, and introduce a two-stage training strategy to effectively transfer these pre-trained priors. Extensive experiments demonstrate that InstructAV2AV outperforms state-of-the-art methods across 11 metrics spanning three aspects on two evaluation sets, highlighting its potential for controllable content creation. Project page: https://hjzheng.net/projects/InstructAV2AV/.
- Abstract(参考訳): 近年の拡散法は映像コンテンツの操作において顕著な進歩を遂げている。
しかし、通常は付随する音声を無視し、音声は編集結果から切り離される。
本稿では,インストラクトAV2AVを提案する。
まず、スケーラブルなデータ合成パイプラインを開発し、高品質なソース・ツー・ターゲットペアを用いた最初の大規模オーディオ・ビデオ編集データセットであるInsAVE-80Kを構築した。
このデータ基盤により、ロバストな事前情報を活用するために、オーディオビデオ生成バックボーンを適用します。
我々は、音声映像入力とノイズの多い潜時符号を結合して、ソースコンテキストをアンロックし、指示追従とコンテンツ保存を改善するために、ソース指示の注意を喚起し、2段階のトレーニング戦略を導入し、これらの事前学習を効果的に転送する。
大規模な実験により、InstructAV2AVは2つの評価セットで3つの側面にまたがる11のメトリクスで最先端の手法よりも優れており、制御可能なコンテンツ生成の可能性を強調している。
プロジェクトページ: https://hjjheng.net/projects/InstructAV2AV/。
関連論文リスト
- Diffusion Models for Joint Audio-Video Generation [51.56484100374058]
高品質でペアのオーディオビデオデータセットを2つリリースします。
データセットのスクラッチからMM-拡散アーキテクチャをトレーニングします。
逐次2段階のテキスト・オーディオ・ビデオ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-17T03:31:37Z) - Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation [20.446421146630474]
本稿では,事前に訓練したテキスト・トゥ・ビデオ(T2V)とテキスト・トゥ・オーディオ(T2A)モジュールを併用した,パラメータ効率のよいAVFullDiT(Audio-Video Full DiT)アーキテクチャを提案する。
以上の結果から,音声とビデオの関節装飾が同期以上の効果をもたらすという,最初の体系的な証拠が得られた。
論文 参考訳(メタデータ) (2025-12-02T06:31:38Z) - UniVerse-1: Unified Audio-Video Generation via Stitching of Experts [59.38012380516272]
協調音声とビデオの同時生成が可能な統合型Veo-3型モデルUniVerse-1を提案する。
トレーニング効率を向上させるために、スクラッチからトレーニングをバイパスし、代わりに専門家の縫合技術(SoE)を用いる。
論文 参考訳(メタデータ) (2025-09-07T17:55:03Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance [33.1393328136321]
生成プロセスの制御性を向上し,よりリアルな音声合成を実現するために,ステップバイステップのV2A生成手法を提案する。
従来のフォーリーにインスパイアされた我々の手法は、ビデオによって誘発される全ての音声イベントを、欠落した音声イベントの漸進的な生成を通じてキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-06-26T04:20:08Z) - Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model [16.22530358172138]
このフレームワークは、整列したトレーニングデータセグメントを選択するためのスコアリング機構を実装している。
音声ベースの基礎モデルであるWhisperと、デュアルエンコーダ構造におけるビデオ解析のためのDINOv2を統合している。
AudioCaps、VALOR、VGGSoundの評価は、提案したモデルアーキテクチャの有効性を示す。
論文 参考訳(メタデータ) (2025-03-12T09:48:38Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。