論文の概要: Conditional Flow Matching for Visually-Guided Acoustic Highlighting
- arxiv url: http://arxiv.org/abs/2602.03762v1
- Date: Tue, 03 Feb 2026 17:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.600179
- Title: Conditional Flow Matching for Visually-Guided Acoustic Highlighting
- Title(参考訳): 視覚誘導型音響ハイライトのための条件付きフローマッチング
- Authors: Hugo Malard, Gael Le Lan, Daniel Wong, David Lou Alon, Yi-Chiao Wu, Sanjeel Parekh,
- Abstract要約: 視覚的に誘導された音響ハイライトは、付随するビデオとオーディオのバランスを調整し、一貫性のあるオーディオ視覚体験を作り出す。
既存のアプローチでは、オーディオリミックスの本来の曖昧さに苦しむ差別モデルを使用している。
この制限に対処するために、条件付きフローマッチング(CFM)フレームワークを導入します。
- 参考スコア(独自算出の注目度): 10.241097929338366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-guided acoustic highlighting seeks to rebalance audio in alignment with the accompanying video, creating a coherent audio-visual experience. While visual saliency and enhancement have been widely studied, acoustic highlighting remains underexplored, often leading to misalignment between visual and auditory focus. Existing approaches use discriminative models, which struggle with the inherent ambiguity in audio remixing, where no natural one-to-one mapping exists between poorly-balanced and well-balanced audio mixes. To address this limitation, we reframe this task as a generative problem and introduce a Conditional Flow Matching (CFM) framework. A key challenge in iterative flow-based generation is that early prediction errors -- in selecting the correct source to enhance -- compound over steps and push trajectories off-manifold. To address this, we introduce a rollout loss that penalizes drift at the final step, encouraging self-correcting trajectories and stabilizing long-range flow integration. We further propose a conditioning module that fuses audio and visual cues before vector field regression, enabling explicit cross-modal source selection. Extensive quantitative and qualitative evaluations show that our method consistently surpasses the previous state-of-the-art discriminative approach, establishing that visually-guided audio remixing is best addressed through generative modeling.
- Abstract(参考訳): 視覚的に誘導された音響ハイライトは、付随するビデオとオーディオのバランスを調整し、一貫性のあるオーディオ視覚体験を作り出す。
視覚的満足度と強調度は広く研究されているが、音響的ハイライトは未発見のままであり、しばしば視覚的焦点と聴覚的焦点の相違につながる。
既存のアプローチでは、オーディオリミックスに固有の曖昧さに苦しむ差別モデルを使用しており、バランスの悪いオーディオミックスとバランスの取れたオーディオミックスの間に自然な1対1マッピングが存在しない。
この制限に対処するため、私たちはこのタスクを生成的問題として再編成し、条件付きフローマッチング(CFM)フレームワークを導入します。
反復フローベースの生成における重要な課題は、早期予測エラー -- 正しいソースを選択して -- ステップを越え、トラジェクトリをマニフォールドから押し出すことである。
これを解決するために,最終段階においてドリフトを罰するロールアウト損失を導入し,自己補正軌道を奨励し,長距離流の安定化を図る。
さらに,ベクトル場回帰の前に音声と視覚の手がかりを融合させる条件付きモジュールを提案する。
広範に定量的および定性的評価を行った結果,本手法は従来技術の差別的アプローチを一貫して上回り,視覚誘導型オーディオリミックスが生成モデルにより最適に対処できることが確認された。
関連論文リスト
- Self-diffusion for Solving Inverse Problems [3.8870795921263728]
我々は,事前学習された生成モデルに頼ることなく,逆問題を解決するための新しいフレームワークである自己拡散を提案する。
自己拡散はニューラルネットワークのスペクトルバイアスを利用して、スケジュールされたノイズプロセスを通じて変調する。
我々は, 線形逆問題に対するアプローチの有効性を実証し, 他の手法と比較して, 自己拡散が競争力や優れた性能を達成することを示す。
論文 参考訳(メタデータ) (2025-10-24T12:57:22Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning [37.17910848101769]
現在の視覚誘導型オーディオキャプションシステムは、現実のシナリオにおけるオーディオヴィジュアル・アライメントに対処できない。
本稿では,モーダルな不確実性定量化を通じて視覚情報の流れを動的に変調するエントロピー対応ゲート融合フレームワークを提案する。
また,合成ミスマッチ学習ペアを生成するバッチワイドオーディオ視覚シャッフル技術を開発した。
論文 参考訳(メタデータ) (2025-05-28T07:08:17Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。