Fugu-MT 論文翻訳(概要): Controlling Decision Drift in Multimodal Sentiment Analysis with Missing Modalities

論文の概要: Controlling Decision Drift in Multimodal Sentiment Analysis with Missing Modalities

arxiv url: http://arxiv.org/abs/2605.16889v1
Date: Sat, 16 May 2026 09:03:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.22032
Title: Controlling Decision Drift in Multimodal Sentiment Analysis with Missing Modalities
Title（参考訳）: モダリティの欠如を考慮したマルチモーダル感度解析における決定ドリフトの制御
Authors: Chenglizhao Chen, Yuchen Cao, Xinyu Liu, Mengke Song, Guisheng Zhang, Xiaomin Yu,
Abstract要約: 本稿では,モダリティの欠如によるロバスト性向上のための2レベル参照アライメントフレームワークを提案する。第一レベルの参照アライメントは、完全なモダリティサンプルを利用して表現を制約し、異なるモダリティの組み合わせを共有の感情空間に整合させる。第2レベルの参照アライメントは、プロトタイプ検索と投票を通じて信頼性の低いモダリティを抑えることで、決定レベルでの相互整合性を強制する。
参考スコア（独自算出の注目度）: 20.8430910234166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal sentiment analysis relies on textual, acoustic, and visual signals, yet real-world data often suffer from modality missing and quality imbalance. Existing methods generate features for modality missing from available ones, but differences in expression mechanisms and sentiment dynamics across modalities may cause the generated features to deviate from true distributions and mislead prediction. In addition, unreliable modalities may dominate fusion, resulting in representation shift across modality combinations and unstable sentiment representations. To address these challenges, we propose a two-level reference alignment framework. The framework introduces stable references at the feature representation and sentiment decision levels to improve robustness under modality missing. First-level reference alignment leverages complete-modality samples to constrain representations and align different modality combinations into a shared sentiment space. Second-level reference alignment enforces cross-modal consistency at the decision level by suppressing unreliable modalities through prototype retrieval and voting. As a result, the framework maintains stable and reliable sentiment predictions under diverse missing-modality patterns. Experiments on CMU-MOSI and CMU-MOSEI show consistent improvements across various missing-modality settings. Under full-modality input, the proposed method achieves state-of-the-art performance, with ACC of 86.28% and 85.88%, and F1 of 86.24% and 85.86%.
Abstract（参考訳）: マルチモーダル感情分析はテキスト、音響、視覚信号に依存しているが、実世界のデータはモダリティの欠如と品質の不均衡に悩まされることが多い。既存の方法は、利用可能なものから欠落するモダリティの特徴を生成するが、モダリティ間の表現機構と感情力学の違いは、生成した特徴を真の分布と誤解を招く予測から逸脱させる可能性がある。さらに、信頼できないモダリティが融合を支配し、モダリティの組み合わせと不安定な感情表現をまたいで表現がシフトする。これらの課題に対処するため、我々は2段階の参照アライメントフレームワークを提案する。このフレームワークは、機能表現と感情決定レベルで安定した参照を導入し、モダリティの欠如の下で堅牢性を改善する。第一レベルの参照アライメントは、完全なモダリティサンプルを利用して表現を制約し、異なるモダリティの組み合わせを共有の感情空間に整合させる。第2レベルの参照アライメントは、プロトタイプ検索と投票を通じて信頼性の低いモダリティを抑えることで、決定レベルでの相互整合性を強制する。結果として、このフレームワークは、様々な欠落したモダリティパターンの下で、安定的で信頼性の高い感情予測を維持している。 CMU-MOSIとCMU-MOSEIの実験では、様々な欠落モード設定で一貫した改善が見られた。フルモダリティ入力では,ACCが86.28%,85.88%,F1が86.24%,F1が85.86%の最先端性能を実現する。

関連論文リスト

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models [70.34265674686516]
マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。本稿では,テキスト,画像,ビデオ,オーディオ,エージェント中心のシナリオにまたがる埋め込みを評価するベンチマークであるMMEB-V3を紹介する。本研究は, 完全モダリティ埋め込みの系統的解析を行い, 3つの重要な知見を同定する。
論文参考訳（メタデータ） (2026-04-25T14:15:05Z)
URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection [17.19666367498091]
マルチモーダルサルカズム検出(MSD)は,テキストと画像間の意味的不一致から皮肉な意図を識別することを目的としている。本稿では,対話や融合におけるモダリティの信頼性を明示的にモデル化する統一フレームワークであるUncertainty-aware Robust Multimodal Fusion (URMF)を提案する。 URMFは、強い単調、マルチモーダル、MLLMベースのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2026-04-08T06:50:43Z)
Evaluation Before Generation: A Paradigm for Robust Multimodal Sentiment Analysis with Missing Modalities [21.767502810187477]
モダリティの欠如は、マルチモーダルな感情分析において根本的な課題となる。既存のアプローチは主に、素早い学習と事前訓練されたモデルを通じて堅牢性を改善する。 Promptベースのミスモダリティ適応フレームワークがこれらの問題に対処するために提案されている。
論文参考訳（メタデータ） (2026-04-07T07:59:06Z)
Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文参考訳（メタデータ） (2026-03-10T02:45:02Z)
SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data [31.146366498415784]
マルチモーダルセマンティックセグメンテーションは、リモートセンシング地球観測のための多様なセンサーからの補完情報を統合する。 IMSSは3つの主要な課題に直面している:マルチモーダル不均衡、支配的なモダリティが脆弱なモダリティを抑えること、スケール、形状、方向のクラス内変化、矛盾するキーと矛盾するセマンティック応答を生み出すクロスモーダル不均一。本稿では,セマンティック・ガイド・モダリティ・アウェア(SGMA)フレームワークを提案する。セマンティック・モダリティ・アウェア(SGMA)フレームワークは,クラス内変動の低減とセマンティックガイダンスによる相互不整合の緩和を図りつつ,バランスの取れたマルチモーダル学習を実現する。
論文参考訳（メタデータ） (2026-03-03T01:28:21Z)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。