論文の概要: VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module
- arxiv url: http://arxiv.org/abs/2509.17022v1
- Date: Sun, 21 Sep 2025 10:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.076434
- Title: VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module
- Title(参考訳): VAInpaint: LLM駆動モジュールによるゼロショットビデオオーディオインペイントフレームワーク
- Authors: Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen,
- Abstract要約: VAInpaintは、新しいパイプラインで、マスクを生成し、オブジェクトを削除する際のビデオインペイントモデルをガイドする。
LLMは世界規模でシーンを解析し、リージョン固有のモデルは局所的な記述を提供する。
提案手法は,オーディオおよびビデオのインパインティングにおける現在のベンチマークに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 46.29588402955497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video and audio inpainting for mixed audio-visual content has become a crucial task in multimedia editing recently. However, precisely removing an object and its corresponding audio from a video without affecting the rest of the scene remains a significant challenge. To address this, we propose VAInpaint, a novel pipeline that first utilizes a segmentation model to generate masks and guide a video inpainting model in removing objects. At the same time, an LLM then analyzes the scene globally, while a region-specific model provides localized descriptions. Both the overall and regional descriptions will be inputted into an LLM, which will refine the content and turn it into text queries for our text-driven audio separation model. Our audio separation model is fine-tuned on a customized dataset comprising segmented MUSIC instrument images and VGGSound backgrounds to enhance its generalization performance. Experiments show that our method achieves performance comparable to current benchmarks in both audio and video inpainting.
- Abstract(参考訳): 近年,映像・映像の混在化がマルチメディア編集において重要な課題となっている。
しかし、シーンの他の部分に影響を与えることなく、オブジェクトとその対応するオーディオをビデオから正確に取り除くことは、依然として大きな課題である。
そこで我々は,まずセグメンテーションモデルを用いてマスクを生成し,オブジェクトを除去する際の映像インパインティングモデルを導く新しいパイプラインVAInpaintを提案する。
同時に、LLMがシーンをグローバルに分析し、リージョン固有のモデルが局所的な記述を提供する。
全体的および地域的記述はLLMに入力され、内容が洗練され、テキスト駆動音声分離モデルのためのテキストクエリに変換されます。
我々の音声分離モデルは、その一般化性能を高めるために、セグメント化されたMUSIC楽器画像とVGGSound背景を含むカスタマイズされたデータセットに基づいて微調整される。
実験により,本手法は,オーディオおよびビデオのインパインティングにおいて,現在のベンチマークに匹敵する性能を実現することが示された。
関連論文リスト
- Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - Spotlighting Partially Visible Cinematic Language for Video-to-Audio Generation via Self-distillation [34.67832016708788]
本稿では,V2Aモデルを映画言語シナリオに拡張するための自己蒸留手法を提案する。
映像言語の変化をシミュレートすることで、学生モデルは、トレーニングペアのビデオ特徴と、同じ音声と視覚の対応とを一致させることを学ぶ。
提案手法は,全評価指標に対する部分的可視性の向上とともに,大規模V2AデータセットであるVGGSoundの性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-03T03:23:11Z) - Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - Seeing Voices: Generating A-Roll Video from Audio with Mirage [12.16029287095035]
ビデオ生成への現在のアプローチは、音声を無視して汎用的だがサイレントな画像シーケンス生成に焦点を当てている。
音声入力が与えられたスクラッチからリアルで表現力のある出力画像を生成するのに優れるオーディオ・ビデオ基盤モデルであるMirageを紹介する。
論文 参考訳(メタデータ) (2025-06-09T22:56:02Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文 参考訳(メタデータ) (2023-01-04T01:33:42Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。