論文の概要: Audio-Guided Visual Editing with Complex Multi-Modal Prompts
- arxiv url: http://arxiv.org/abs/2508.20379v1
- Date: Thu, 28 Aug 2025 03:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.924954
- Title: Audio-Guided Visual Editing with Complex Multi-Modal Prompts
- Title(参考訳): 複雑なマルチモーダルプロンプトを用いたオーディオガイド映像編集
- Authors: Hyeonyu Kim, Seokhoon Jeong, Seonghee Han, Chanhyuk Choi, Taehwan Kim,
- Abstract要約: 本稿では,複数のテキストと音声のプロンプトで複雑な編集タスクを,トレーニングを必要とせずに処理できる新しいビジュアル編集フレームワークを提案する。
トレーニング済みのマルチモーダルエンコーダと強力なゼロショット機能を活用し,多様なオーディオをビジュアル編集タスクに統合する。
本フレームワークは,テキストのみのアプローチが失敗する音声からの豊富な情報を組み込むことで,複雑な編集シナリオの処理に長けている。
- 参考スコア(独自算出の注目度): 5.694921736486254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual editing with diffusion models has made significant progress but often struggles with complex scenarios that textual guidance alone could not adequately describe, highlighting the need for additional non-text editing prompts. In this work, we introduce a novel audio-guided visual editing framework that can handle complex editing tasks with multiple text and audio prompts without requiring additional training. Existing audio-guided visual editing methods often necessitate training on specific datasets to align audio with text, limiting their generalization to real-world situations. We leverage a pre-trained multi-modal encoder with strong zero-shot capabilities and integrate diverse audio into visual editing tasks, by alleviating the discrepancy between the audio encoder space and the diffusion model's prompt encoder space. Additionally, we propose a novel approach to handle complex scenarios with multiple and multi-modal editing prompts through our separate noise branching and adaptive patch selection. Our comprehensive experiments on diverse editing tasks demonstrate that our framework excels in handling complicated editing scenarios by incorporating rich information from audio, where text-only approaches fail.
- Abstract(参考訳): 拡散モデルによる視覚的編集は大きな進歩を遂げているが、テキストによるガイダンスだけでは適切に記述できない複雑なシナリオに苦慮し、追加の非テキスト編集プロンプトの必要性を強調している。
本研究では,複数のテキストと音声のプロンプトによる複雑な編集タスクを,追加の訓練を必要とせずに処理できる新しいビジュアル編集フレームワークを提案する。
既存のオーディオ誘導ビジュアル編集手法は、音声をテキストに合わせるために特定のデータセットのトレーニングを必要とし、その一般化を現実の状況に限定する。
我々は,音声エンコーダ空間と拡散モデルのプロンプトエンコーダ空間との差を緩和することにより,ゼロショット能力の強い事前学習型マルチモーダルエンコーダを活用し,多様なオーディオを視覚編集タスクに統合する。
さらに、ノイズ分岐と適応パッチ選択を別途行うことで、複数モーダルな編集プロンプトで複雑なシナリオを処理できる新しい手法を提案する。
多様な編集タスクに関する包括的な実験により,テキストのみのアプローチが失敗する音声からの豊富な情報を組み込むことで,複雑な編集シナリオを扱う上で,我々のフレームワークが優れていることを示す。
関連論文リスト
- From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [17.769963004697047]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。
本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。
その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:57:43Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。