論文の概要: Text Takes Over: A Study of Modality Bias in Multimodal Intent Detection
- arxiv url: http://arxiv.org/abs/2508.16122v1
- Date: Fri, 22 Aug 2025 06:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.268001
- Title: Text Takes Over: A Study of Modality Bias in Multimodal Intent Detection
- Title(参考訳): テキストが引き継がれる:マルチモーダルインテント検出におけるモダリティバイアスの研究
- Authors: Ankan Mullick, Saransh Sharma, Abhik Jana, Pawan Goyal,
- Abstract要約: 本研究では,多目的意図検出タスクにおいて,テキストのみを含むLarge Language Models (LLMs) と非LLMs (マルチモーダルモデル) の有効性について検討する。
この結果,テキストのみのLLMであるMistral-7Bは,MIntRec-1で約9%,MIntRec2.0データセットで約4%,最も競争力のあるマルチモーダルモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 12.754751703604734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of multimodal data, integrating text, audio, and visuals, has created new opportunities for studying multimodal tasks such as intent detection. This work investigates the effectiveness of Large Language Models (LLMs) and non-LLMs, including text-only and multi-modal models, in the multimodal intent detection task. Our study reveals that Mistral-7B, a text-only LLM, outperforms most competitive multimodal models by approximately 9% on MIntRec-1 and 4% on MIntRec2.0 datasets. This performance advantage comes from a strong textual bias in these datasets, where over 90% of the samples require textual input, either alone or in combination with other modalities, for correct classification. We confirm the modality bias of these datasets via human evaluation, too. Next, we propose a framework to debias the datasets, and upon debiasing, more than 70% of the samples in MIntRec-1 and more than 50% in MIntRec2.0 get removed, resulting in significant performance degradation across all models, with smaller multimodal fusion models being the most affected with an accuracy drop of over 50 - 60%. Further, we analyze the context-specific relevance of different modalities through empirical analysis. Our findings highlight the challenges posed by modality bias in multimodal intent datasets and emphasize the need for unbiased datasets to evaluate multimodal models effectively.
- Abstract(参考訳): テキスト、音声、視覚を統合したマルチモーダルデータの台頭は、インテント検出などのマルチモーダルタスクを研究する新たな機会を生み出している。
本研究では,多目的意図検出タスクにおいて,テキストのみを含むLarge Language Models (LLMs) と非LLMs (マルチモーダルモデル) の有効性について検討する。
この結果,テキストのみのLLMであるMistral-7Bは,MIntRec-1で約9%,MIntRec2.0データセットで約4%,最も競争力のあるマルチモーダルモデルよりも優れていた。
このパフォーマンス上のアドバンテージは、これらのデータセットの強いテキストバイアスによるもので、90%以上のサンプルは、正しい分類のために、単独または他のモダリティと組み合わせて、テキスト入力を必要とする。
これらのデータセットのモダリティバイアスも人間による評価によって確認する。
次に、データセットをデバイアスするフレームワークを提案し、デバイアスを行うと、MIntRec-1のサンプルの70%以上とMIntRec2.0の50%以上が取り除かれ、結果として全てのモデルでパフォーマンスが大幅に低下し、より小さなマルチモーダル融合モデルは50~60%以上の精度低下で最も影響を受けます。
さらに、実験分析により、異なるモダリティの文脈特異的な関連性を分析する。
本研究は,マルチモーダルデータセットにおけるモダリティバイアスによる課題を強調し,マルチモーダルモデルを効果的に評価するための非バイアスデータセットの必要性を強調した。
関連論文リスト
- MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning [4.963955559863751]
MMAT-1Mは、CoT、リフレクション、動的ツールの使用をサポートするために設計された最初の100万規模のマルチモーダルエージェントチューニングデータセットである。
我々のデータセットは、新しい4段階のデータエンジンによって構築されます。
MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
論文 参考訳(メタデータ) (2025-07-29T15:39:14Z) - Does Multimodality Lead to Better Time Series Forecasting? [84.74978289870155]
このようなマルチモーダル積分がどのような条件で常に得られるかは、まだ不明である。
本稿では,時系列とテキスト表現をアライメントするアライメント・ベース・メソッドと,予測のための大規模言語モデルを直接促進するプロンプト・ベース・メソッドの2つの一般的なマルチモーダル予測パラダイムを評価する。
その結果,1)高容量テキストモデル,(2)比較的弱い時系列モデル,(3)適切な整合戦略などにより,テキスト情報を組み込むことが最も有用であることが示唆された。
論文 参考訳(メタデータ) (2025-06-20T23:55:56Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models [0.0]
本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。
我々は、テキスト、オーディオ、視覚のモダリティを統合するために、早期融合を伴うトランスフォーマーベースのモデルを使用する。
このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
論文 参考訳(メタデータ) (2025-05-09T15:10:57Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Defending Multimodal Fusion Models against Single-Source Adversaries [6.019777076722421]
標準マルチモーダル融合モデルは単一ソースの敵に対して脆弱であることを示す。
単一のモダリティに対する攻撃は、複数の乱れのないモダリティからの正しい情報を克服し、モデルを失敗させる。
この発見に触発され、逆向きに堅牢な核融合戦略を提案する。
論文 参考訳(メタデータ) (2022-06-25T18:57:02Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。