論文の概要: Robust Multimodal Sentiment Analysis with Distribution-Based Feature Recovery and Fusion
- arxiv url: http://arxiv.org/abs/2511.18751v1
- Date: Mon, 24 Nov 2025 04:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.017527
- Title: Robust Multimodal Sentiment Analysis with Distribution-Based Feature Recovery and Fusion
- Title(参考訳): 分布型特徴回復と融合によるロバストマルチモーダル感性解析
- Authors: Daiqing Wu, Dongbao Yang, Can Ma, Yu Zhou,
- Abstract要約: 画像・テキスト・ペアの頑健なマルチモーダル感情分析のための分布型特徴回復・融合(DRF)手法を提案する。
具体的には,各モダリティの特徴分布を近似するために,低品質なモダリティと欠落したモダリティを同時に処理できる機能キューをメンテナンスする。
実験では、低品質なモダリティと欠落したモダリティを模倣するために、サンプルのいくつかのモダリティを破壊・破棄する2つの破壊戦略が採用された。
- 参考スコア(独自算出の注目度): 16.56946059161466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As posts on social media increase rapidly, analyzing the sentiments embedded in image-text pairs has become a popular research topic in recent years. Although existing works achieve impressive accomplishments in simultaneously harnessing image and text information, they lack the considerations of possible low-quality and missing modalities. In real-world applications, these issues might frequently occur, leading to urgent needs for models capable of predicting sentiment robustly. Therefore, we propose a Distribution-based feature Recovery and Fusion (DRF) method for robust multimodal sentiment analysis of image-text pairs. Specifically, we maintain a feature queue for each modality to approximate their feature distributions, through which we can simultaneously handle low-quality and missing modalities in a unified framework. For low-quality modalities, we reduce their contributions to the fusion by quantitatively estimating modality qualities based on the distributions. For missing modalities, we build inter-modal mapping relationships supervised by samples and distributions, thereby recovering the missing modalities from available ones. In experiments, two disruption strategies that corrupt and discard some modalities in samples are adopted to mimic the low-quality and missing modalities in various real-world scenarios. Through comprehensive experiments on three publicly available image-text datasets, we demonstrate the universal improvements of DRF compared to SOTA methods under both two strategies, validating its effectiveness in robust multimodal sentiment analysis.
- Abstract(参考訳): 近年,ソーシャルメディアへの投稿が急速に増加し,画像とテキストのペアに埋め込まれた感情の分析が盛んに行われている。
既存の研究は、画像とテキスト情報を同時に活用することで、目覚ましい成果を達成するが、低品質かつ欠落したモダリティの考慮が欠如している。
現実世界のアプリケーションでは、これらの問題が頻繁に発生し、感情を強く予測できるモデルに対する緊急の要求につながります。
そこで本稿では,画像・テキスト・ペアのマルチモーダル感情分析のための分布型特徴回復・融合法を提案する。
具体的には、各モダリティの特徴分布を近似するために、各モダリティのフィーチャキューを保持し、それによって、統一されたフレームワークにおいて、低品質なモダリティと欠落したモダリティを同時に処理できる。
低品質なモダリティに対しては、分布に基づいてモダリティの質を定量的に推定することにより、融合への貢献を減らす。
モダリティの欠如に対して、サンプルや分布によって管理されるモダリティ間マッピング関係を構築し、利用可能なモダリティからモダリティの欠如を回復する。
実験では、様々な現実世界のシナリオにおいて、低品質なモダリティと欠落したモダリティを模倣するために、サンプルのいくつかのモダリティを破壊・破棄する2つの破壊戦略が採用されている。
一般に公開されている3つの画像テキストデータセットに関する総合的な実験を通じて、両戦略のSOTA法と比較して、DRFの普遍的な改善を実証し、堅牢なマルチモーダル感情分析の有効性を検証した。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - How Far Are We from Generating Missing Modalities with Foundation Models? [49.425856207329524]
欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Confidence-Aware Self-Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [15.205192581534973]
マルチモーダル感情分析は、マルチモーダルデータを通して人間の感情を理解することを目的としている。
既存のモダリティの欠如を扱う方法は、データ再構成や共通部分空間投影に基づいている。
マルチモーダルな確率的埋め込みを効果的に組み込んだ信頼性認識型自己蒸留(CASD)戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:48:41Z) - The Multimodal Paradox: How Added and Missing Modalities Shape Bias and Performance in Multimodal AI [0.0]
マルチモーダル学習は、高い意思決定において、単調な学習よりも優れていることが証明されている。
パフォーマンス向上は、マルチモーダルシステムを評価するためのゴールドスタンダードのままだが、バイアスやロバスト性に関する懸念はしばしば見過ごされている。
論文 参考訳(メタデータ) (2025-05-05T20:42:44Z) - Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。
本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。
HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-05T04:04:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。