論文の概要: Video Object Segmentation-Aware Audio Generation
- arxiv url: http://arxiv.org/abs/2509.26604v1
- Date: Tue, 30 Sep 2025 17:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.236737
- Title: Video Object Segmentation-Aware Audio Generation
- Title(参考訳): 映像オブジェクトのセグメンテーションを考慮したオーディオ生成
- Authors: Ilpo Viertola, Vladimir Iashin, Esa Rahtu,
- Abstract要約: 既存のマルチモーダルオーディオ生成モデルは、しばしば正確なユーザ制御を欠いているため、プロのFoleyでは適用性が制限される。
我々は,映像やテキストの手がかりとともに視覚的セグメンテーションマスクを活用することで,制御可能な音声生成を可能にする新しいマルチモーダル生成モデルSAGANetを提案する。
提案手法は,現在の最先端手法よりも大幅に改善され,制御可能で高忠実なフォリー合成のための新しい標準が設定されている。
- 参考スコア(独自算出の注目度): 13.505371291069892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal audio generation models often lack precise user control, which limits their applicability in professional Foley workflows. In particular, these models focus on the entire video and do not provide precise methods for prioritizing a specific object within a scene, generating unnecessary background sounds, or focusing on the wrong objects. To address this gap, we introduce the novel task of video object segmentation-aware audio generation, which explicitly conditions sound synthesis on object-level segmentation maps. We present SAGANet, a new multimodal generative model that enables controllable audio generation by leveraging visual segmentation masks along with video and textual cues. Our model provides users with fine-grained and visually localized control over audio generation. To support this task and further research on segmentation-aware Foley, we propose Segmented Music Solos, a benchmark dataset of musical instrument performance videos with segmentation information. Our method demonstrates substantial improvements over current state-of-the-art methods and sets a new standard for controllable, high-fidelity Foley synthesis. Code, samples, and Segmented Music Solos are available at https://saganet.notion.site
- Abstract(参考訳): 既存のマルチモーダルオーディオ生成モデルは、プロのFoleyワークフローに適用性を制限する、正確なユーザ制御を欠いていることが多い。
特に、これらのモデルはビデオ全体に焦点を当てており、シーン内の特定のオブジェクトを優先順位付けしたり、不要なバックグラウンド音を発生させたり、間違ったオブジェクトにフォーカスしたりするための正確な方法を提供していません。
このギャップに対処するために,オブジェクトレベルのセグメンテーションマップに音声合成を明示的に条件付ける,ビデオオブジェクトセグメンテーション対応オーディオ生成の新しいタスクを導入する。
我々は,映像やテキストの手がかりとともに視覚的セグメンテーションマスクを活用することで,制御可能な音声生成を可能にする新しいマルチモーダル生成モデルSAGANetを提案する。
本モデルは,ユーザに対して,音声生成に対する微粒で視覚的局所的な制御を提供する。
この課題を支援し,さらにセグメンテーションを意識したFoleyについて研究するために,セグメンテーション情報を備えた楽器演奏ビデオのベンチマークデータセットであるSegmented Music Solosを提案する。
提案手法は,現在の最先端手法よりも大幅に改善され,制御可能で高忠実なフォリー合成のための新しい標準が設定されている。
コード、サンプル、Segmented Music Solosはhttps://saganet.notion.siteで入手できる。
関連論文リスト
- Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。
Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。
本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文 参考訳(メタデータ) (2025-03-10T11:57:55Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。
AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。
AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文 参考訳(メタデータ) (2023-01-04T01:33:42Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。