Fugu-MT 論文翻訳(概要): CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

論文の概要: CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

arxiv url: http://arxiv.org/abs/2312.05412v2
Date: Wed, 09 Oct 2024 16:49:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 02:04:35.245831
Title: CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
Title（参考訳）: CMMD:ビデオ・オーディオ条件モデリングのためのコントラスト多モード拡散
Authors: Ruihan Yang, Hannes Gamper, Sebastian Braun,
Abstract要約: ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
参考スコア（独自算出の注目度）: 21.380988939240844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a multi-modal diffusion model tailored for the bi-directional conditional generation of video and audio. We propose a joint contrastive training loss to improve the synchronization between visual and auditory occurrences. We present experiments on two datasets to evaluate the efficacy of our proposed model. The assessment of generation quality and alignment performance is carried out from various angles, encompassing both objective and subjective metrics. Our findings demonstrate that the proposed model outperforms the baseline in terms of quality and generation speed through introduction of our novel cross-modal easy fusion architectural block. Furthermore, the incorporation of the contrastive loss results in improvements in audio-visual alignment, particularly in the high-correlation video-to-audio generation task.
Abstract（参考訳）: ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。提案モデルの有効性を評価するために,2つのデータセットについて実験を行った。主観的指標と主観的指標の両方を含む様々な角度から生成品質とアライメント性能の評価を行う。提案手法は,新規なクロスモーダル型簡易融合構造ブロックの導入により,品質および生成速度において,ベースラインよりも優れた性能を示すことを示す。さらに、コントラスト損失の取り込みにより、特に高相関ビデオ・オーディオ生成タスクにおいて、オーディオ・視覚アライメントの改善がもたらされる。

関連論文リスト

MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation [9.268996272239034]
マイクロビデオレコメンデーションは、対話されたマイクロビデオのコラボレーティブおよびコンテキスト情報からユーザの好みをキャプチャすることを目的としている。マイクロビデオレコメンデーション(MealRec)のための階層拡散モデルを用いた多重粒度連続モデリング手法を提案する。
論文参考訳（メタデータ） (2026-03-02T14:39:18Z)
JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-22T12:44:28Z)
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。 DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。 Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文参考訳（メタデータ） (2025-10-31T16:32:12Z)
High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文参考訳（メタデータ） (2025-09-26T08:46:00Z)
Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文参考訳（メタデータ） (2025-06-03T17:55:04Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap [38.5017989456818]
DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。 VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-15T13:24:09Z)
Efficient Audio-Visual Fusion for Video Classification [6.106447284305316]
本稿では,映像分類タスクにおける音声・視覚融合の新しい,効率的なアプローチであるAttend-Fusionを提案する。提案手法は,コンパクトなモデルアーキテクチャを維持しながら,オーディオと視覚の両方のモダリティを活用するという課題に対処する。
論文参考訳（メタデータ） (2024-11-08T14:47:28Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文参考訳（メタデータ） (2023-08-03T07:22:04Z)
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。 FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-08-02T13:43:03Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。