論文の概要: Denoising Bottleneck with Mutual Information Maximization for Video
Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2305.14652v3
- Date: Wed, 31 May 2023 08:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:10:40.293957
- Title: Denoising Bottleneck with Mutual Information Maximization for Video
Multimodal Fusion
- Title(参考訳): ビデオマルチモーダル融合のための相互情報最大化による脱ノイズボトルネック
- Authors: Shaoxiang Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, Yunbo
Cao, Zhifang Sui
- Abstract要約: ビデオマルチモーダル融合は、ビデオにマルチモーダル信号を統合することを目的としている。
ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオのモダリティに富んでいる。
本稿では,微細なビデオ融合のためのボトルネック融合モデルを提案する。
- 参考スコア(独自算出の注目度): 30.631733395175765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video multimodal fusion aims to integrate multimodal signals in videos, such
as visual, audio and text, to make a complementary prediction with multiple
modalities contents. However, unlike other image-text multimodal tasks, video
has longer multimodal sequences with more redundancy and noise in both visual
and audio modalities. Prior denoising methods like forget gate are coarse in
the granularity of noise filtering. They often suppress the redundant and noisy
information at the risk of losing critical information. Therefore, we propose a
denoising bottleneck fusion (DBF) model for fine-grained video multimodal
fusion. On the one hand, we employ a bottleneck mechanism to filter out noise
and redundancy with a restrained receptive field. On the other hand, we use a
mutual information maximization module to regulate the filter-out module to
preserve key information within different modalities. Our DBF model achieves
significant improvement over current state-of-the-art baselines on multiple
benchmarks covering multimodal sentiment analysis and multimodal summarization
tasks. It proves that our model can effectively capture salient features from
noisy and redundant video, audio, and text inputs. The code for this paper is
publicly available at https://github.com/WSXRHFG/DBF.
- Abstract(参考訳): ビデオマルチモーダル融合は、視覚、音声、テキストなどのビデオにマルチモーダル信号を統合することを目的としており、複数のモーダルコンテンツで補完的な予測を行う。
しかし、他の画像テキストのマルチモーダルタスクとは異なり、ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオの両モードで発生する。
ノイズフィルタリングの粒度は,returning gateのような事前のデノイジング手法が粗い。
彼らはしばしば重要な情報を失うリスクを冒して冗長で騒がしい情報を抑圧する。
そこで本研究では,細粒度ビデオマルチモーダル融合のためのDBFモデルを提案する。
一方,騒音や冗長性を抑制された受容野で排除するボトルネック機構を採用している。
一方、相互情報最大化モジュールを用いてフィルタアウトモジュールを制御し、異なるモダリティ内でキー情報を保持する。
我々のDBFモデルは,マルチモーダル感情分析とマルチモーダル要約タスクを含む複数のベンチマークにおいて,最先端のベースラインよりも大幅に改善されている。
このモデルでは、ノイズや冗長なビデオ、音声、テキスト入力から有能な特徴を効果的に捉えることができる。
本論文のコードはhttps://github.com/WSXRHFG/DBF.comで公開されている。
関連論文リスト
- On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文 参考訳(メタデータ) (2024-10-31T04:20:47Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。