論文の概要: Mixed Signals: Understanding Model Disagreement in Multimodal Empathy Detection
- arxiv url: http://arxiv.org/abs/2505.13979v1
- Date: Tue, 20 May 2025 06:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.782189
- Title: Mixed Signals: Understanding Model Disagreement in Multimodal Empathy Detection
- Title(参考訳): 混合信号:マルチモーダル共感検出におけるモデル分解の理解
- Authors: Maya Srikanth, Run Chen, Julia Hirschberg,
- Abstract要約: 単調・多モーダル予測が分岐する症例について検討した。
我々の分析は、一つのモードにおける支配的なシグナルが、他人がサポートしていないときに融合を誤解させる可能性があることを示唆している。
これらの洞察的位置不一致は、困難な事例を特定し、共感システムの堅牢性を改善するのに有用な診断信号である。
- 参考スコア(独自算出の注目度): 4.87341465958982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal models play a key role in empathy detection, but their performance can suffer when modalities provide conflicting cues. To understand these failures, we examine cases where unimodal and multimodal predictions diverge. Using fine-tuned models for text, audio, and video, along with a gated fusion model, we find that such disagreements often reflect underlying ambiguity, as evidenced by annotator uncertainty. Our analysis shows that dominant signals in one modality can mislead fusion when unsupported by others. We also observe that humans, like models, do not consistently benefit from multimodal input. These insights position disagreement as a useful diagnostic signal for identifying challenging examples and improving empathy system robustness.
- Abstract(参考訳): マルチモーダルモデルは共感の検出において重要な役割を果たすが、モダリティが矛盾する手がかりを提供する場合、その性能が損なわれる可能性がある。
これらの失敗を理解するために,一様および多様の予測が分岐する事例について検討する。
テキスト、音声、ビデオの微調整モデルとゲート融合モデルを用いて、アノテータの不確実性によって証明されるように、このような不一致はしばしば基礎となる曖昧さを反映している。
我々の分析は、一つのモードにおける支配的なシグナルが、他人がサポートしていないときに融合を誤解させる可能性があることを示唆している。
また、モデルと同様、人間もマルチモーダル入力の恩恵を受けない。
これらの洞察的位置不一致は、困難な事例を特定し、共感システムの堅牢性を改善するのに有用な診断信号である。
関連論文リスト
- Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Multimodal Learning with Uncertainty Quantification based on Discounted Belief Fusion [3.66486428341988]
医療、金融、自動運転といった分野では、マルチモーダルAIモデルがますます使われています。
騒音、不十分な証拠、モダリティ間の紛争に起因する不確実性は、信頼できる意思決定に不可欠である。
本稿では,命令不変なエビデンス融合を用いた新しいマルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T22:37:18Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。