Fugu-MT 論文翻訳(概要): Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion

論文の概要: Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion

arxiv url: http://arxiv.org/abs/2305.14652v3
Date: Wed, 31 May 2023 08:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 02:10:40.293957
Title: Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion
Title（参考訳）: ビデオマルチモーダル融合のための相互情報最大化による脱ノイズボトルネック
Authors: Shaoxiang Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui
Abstract要約: ビデオマルチモーダル融合は、ビデオにマルチモーダル信号を統合することを目的としている。ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオのモダリティに富んでいる。本稿では,微細なビデオ融合のためのボトルネック融合モデルを提案する。
参考スコア（独自算出の注目度）: 30.631733395175765
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video multimodal fusion aims to integrate multimodal signals in videos, such as visual, audio and text, to make a complementary prediction with multiple modalities contents. However, unlike other image-text multimodal tasks, video has longer multimodal sequences with more redundancy and noise in both visual and audio modalities. Prior denoising methods like forget gate are coarse in the granularity of noise filtering. They often suppress the redundant and noisy information at the risk of losing critical information. Therefore, we propose a denoising bottleneck fusion (DBF) model for fine-grained video multimodal fusion. On the one hand, we employ a bottleneck mechanism to filter out noise and redundancy with a restrained receptive field. On the other hand, we use a mutual information maximization module to regulate the filter-out module to preserve key information within different modalities. Our DBF model achieves significant improvement over current state-of-the-art baselines on multiple benchmarks covering multimodal sentiment analysis and multimodal summarization tasks. It proves that our model can effectively capture salient features from noisy and redundant video, audio, and text inputs. The code for this paper is publicly available at https://github.com/WSXRHFG/DBF.
Abstract（参考訳）: ビデオマルチモーダル融合は、視覚、音声、テキストなどのビデオにマルチモーダル信号を統合することを目的としており、複数のモーダルコンテンツで補完的な予測を行う。しかし、他の画像テキストのマルチモーダルタスクとは異なり、ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオの両モードで発生する。ノイズフィルタリングの粒度は,returning gateのような事前のデノイジング手法が粗い。彼らはしばしば重要な情報を失うリスクを冒して冗長で騒がしい情報を抑圧する。そこで本研究では,細粒度ビデオマルチモーダル融合のためのDBFモデルを提案する。一方,騒音や冗長性を抑制された受容野で排除するボトルネック機構を採用している。一方、相互情報最大化モジュールを用いてフィルタアウトモジュールを制御し、異なるモダリティ内でキー情報を保持する。我々のDBFモデルは,マルチモーダル感情分析とマルチモーダル要約タスクを含む複数のベンチマークにおいて,最先端のベースラインよりも大幅に改善されている。このモデルでは、ノイズや冗長なビデオ、音声、テキスト入力から有能な特徴を効果的に捉えることができる。本論文のコードはhttps://github.com/WSXRHFG/DBF.comで公開されている。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。 CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文参考訳（メタデータ） (2025-03-01T06:13:13Z)
On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。 MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文参考訳（メタデータ） (2024-10-31T04:20:47Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2024-05-08T15:27:08Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。