論文の概要: MoLAN: A Unified Modality-Aware Noise Dynamic Editing Framework for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.09145v1
- Date: Thu, 31 Jul 2025 11:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.174144
- Title: MoLAN: A Unified Modality-Aware Noise Dynamic Editing Framework for Multimodal Sentiment Analysis
- Title(参考訳): MoLAN:マルチモーダル感性分析のための統一モード対応ノイズ動的編集フレームワーク
- Authors: Xingle Xu, Yongkang Liu, Dexian Cai, Shi Feng, Xiaocui Yang, Daling Wang, Yifei Zhang,
- Abstract要約: マルチモーダル・センティメント・アナリティクスは、音声、視覚、テキストなどの様々なモーダルからの情報を統合して補完的な予測を行うことを目的としている。
既存のほとんどのアプローチは、通常、全てのモダリティ情報を特徴強化または認知のための独立した単位として扱う。
我々は,ModaLityを意識したノイズdynAmicEditiNgフレームワークであるMoLANを提案する。
- 参考スコア(独自算出の注目度): 19.170894020119587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis aims to integrate information from various modalities, such as audio, visual, and text, to make complementary predictions. However, it often struggles with irrelevant or misleading visual and auditory information. Most existing approaches typically treat the entire modality information (e.g., a whole image, audio segment, or text paragraph) as an independent unit for feature enhancement or denoising. They often suppress the redundant and noise information at the risk of losing critical information. To address this challenge, we propose MoLAN, a unified ModaLity-aware noise dynAmic editiNg framework. Specifically, MoLAN performs modality-aware blocking by dividing the features of each modality into multiple blocks. Each block is then dynamically assigned a distinct denoising strength based on its noise level and semantic relevance, enabling fine-grained noise suppression while preserving essential multimodal information. Notably, MoLAN is a unified and flexible framework that can be seamlessly integrated into a wide range of multimodal models. Building upon this framework, we further introduce MoLAN+, a new multimodal sentiment analysis approach. Experiments across five models and four datasets demonstrate the broad effectiveness of the MoLAN framework. Extensive evaluations show that MoLAN+ achieves the state-of-the-art performance. The code is publicly available at https://github.com/betterfly123/MoLAN-Framework.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクスは、音声、視覚、テキストなどの様々なモーダルからの情報を統合して補完的な予測を行うことを目的としている。
しかし、視覚的・聴覚的情報の無関係や誤解を招くことがしばしばある。
既存のほとんどのアプローチは、通常、すべてのモダリティ情報(例えば、全体像、音声セグメント、テキスト段落)を特徴強化または認知のための独立した単位として扱う。
彼らはしばしば、重要な情報を失う危険を冒して、冗長かつノイズな情報を抑圧する。
この課題に対処するために,ModaLityを意識したノイズdynAmicEditiNgフレームワークであるMoLANを提案する。
具体的には、MoLANは、各モダリティの特徴を複数のブロックに分割することで、モダリティを意識したブロッキングを行う。
それぞれのブロックは、そのノイズレベルとセマンティックな関連性に基づいて、異なる雑音強度を動的に割り当て、必須のマルチモーダル情報を保持しながら、きめ細かいノイズ抑圧を可能にする。
特に、MoLANは統一的で柔軟なフレームワークであり、広範囲のマルチモーダルモデルにシームレスに統合できる。
この枠組みに基づいて,新たなマルチモーダル感情分析手法であるMoLAN+を導入する。
5つのモデルと4つのデータセットの実験は、MoLANフレームワークの幅広い効果を示している。
大規模な評価では、MoLAN+が最先端のパフォーマンスを達成することが示されている。
コードはhttps://github.com/betterfly123/MoLAN-Framework.comで公開されている。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification [57.08108545219043]
また,Multi-Level Inter-Class Confusing Information removal Network (MICINet) と呼ばれるマルチモーダル分類手法を提案する。
MICINetは、これらのノイズをクラス間統合情報(textitICI)の概念に統合し、グローバルレベルと個人レベルのノイズを除去することで、信頼性の高いノイズ除去を実現している。
4つのデータセットの実験により、MICINetは様々なノイズ条件下で、他の最先端の信頼性の高いマルチモーダル分類方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T01:33:28Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Denoising Bottleneck with Mutual Information Maximization for Video
Multimodal Fusion [30.631733395175765]
ビデオマルチモーダル融合は、ビデオにマルチモーダル信号を統合することを目的としている。
ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオのモダリティに富んでいる。
本稿では,微細なビデオ融合のためのボトルネック融合モデルを提案する。
論文 参考訳(メタデータ) (2023-05-24T02:39:43Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。