論文の概要: Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2512.02650v1
- Date: Tue, 02 Dec 2025 11:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.838546
- Title: Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
- Title(参考訳): 音声による音声合成による音声合成
- Authors: Junwon Lee, Juhan Nam, Jiyoung Lee,
- Abstract要約: 本研究は,マルチオブジェクトビデオからユーザ意図の音声のみを生成する,テキスト条件の選択型V2A生成という新しいタスクを導入する。
本稿では,テキストプロンプトを対象ソースの明示的なセレクタとして扱う新しいテキスト条件付きV2AモデルであるSelVAを提案する。
我々は,VGG-MONOAUDIO上でSelVAを評価する。
- 参考スコア(独自算出の注目度): 26.069696088378517
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work introduces a new task, text-conditioned selective video-to-audio (V2A) generation, which produces only the user-intended sound from a multi-object video. This capability is especially crucial in multimedia production, where audio tracks are handled individually for each sound source for precise editing, mixing, and creative control. However, current approaches generate single source-mixed sounds at once, largely because visual features are entangled, and region cues or prompts often fail to specify the source. We propose SelVA, a novel text-conditioned V2A model that treats the text prompt as an explicit selector of target source and modulates video encoder to distinctly extract prompt-relevant video features. The proposed supplementary tokens promote cross-attention by suppressing text-irrelevant activations with efficient parameter tuning, yielding robust semantic and temporal grounding. SelVA further employs a self-augmentation scheme to overcome the lack of mono audio track supervision. We evaluate SelVA on VGG-MONOAUDIO, a curated benchmark of clean single-source videos for such a task. Extensive experiments and ablations consistently verify its effectiveness across audio quality, semantic alignment, and temporal synchronization. Code and demo are available at https://jnwnlee.github.io/selva-demo/.
- Abstract(参考訳): 本研究は,マルチオブジェクトビデオからユーザ意図の音声のみを生成する,テキスト条件の選択型V2A生成という新しいタスクを導入する。
この機能は特にマルチメディア生産において重要であり、オーディオトラックは個々の音源に対して個別に処理され、正確な編集、ミキシング、創造的な制御を行う。
しかし、現在のアプローチでは、視覚的特徴が絡み合っており、領域のキューやプロンプトがソースを特定するのに失敗することが多いため、単一のソースミックス音を同時に生成する。
本稿では,テキストプロンプトをターゲットソースの明示的なセレクタとして扱う新たなテキスト条件付きV2AモデルであるSelVAを提案する。
提案した補足トークンは,テキスト関連アクティベーションを効率的にパラメータチューニングすることで抑制し,ロバストなセマンティクスと時間的グラウンド化を実現する。
SelVAはさらに、モノオーディオトラックの監督の欠如を克服するために自己拡張方式を採用している。
我々は,VGG-MONOAUDIO上でSelVAを評価する。
大規模な実験と改善は、音質、セマンティックアライメント、時間的同期にまたがってその効果を一貫して検証する。
コードとデモはhttps://jnwnlee.github.io/selva-demo/で公開されている。
関連論文リスト
- Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。