論文の概要: Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation
- arxiv url: http://arxiv.org/abs/2508.15370v1
- Date: Thu, 21 Aug 2025 09:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.249563
- Title: Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation
- Title(参考訳): マルチモーダル大言語モデルにおける信頼の解放:評価,分析,緩和
- Authors: Yichi Zhang, Yao Huang, Yifan Wang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu,
- Abstract要約: MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
- 参考スコア(独自算出の注目度): 51.19622266249408
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The trustworthiness of Multimodal Large Language Models (MLLMs) remains an intense concern despite the significant progress in their capabilities. Existing evaluation and mitigation approaches often focus on narrow aspects and overlook risks introduced by the multimodality. To tackle these challenges, we propose MultiTrust-X, a comprehensive benchmark for evaluating, analyzing, and mitigating the trustworthiness issues of MLLMs. We define a three-dimensional framework, encompassing five trustworthiness aspects which include truthfulness, robustness, safety, fairness, and privacy; two novel risk types covering multimodal risks and cross-modal impacts; and various mitigation strategies from the perspectives of data, model architecture, training, and inference algorithms. Based on the taxonomy, MultiTrust-X includes 32 tasks and 28 curated datasets, enabling holistic evaluations over 30 open-source and proprietary MLLMs and in-depth analysis with 8 representative mitigation methods. Our extensive experiments reveal significant vulnerabilities in current models, including a gap between trustworthiness and general capabilities, as well as the amplification of potential risks in base LLMs by both multimodal training and inference. Moreover, our controlled analysis uncovers key limitations in existing mitigation strategies that, while some methods yield improvements in specific aspects, few effectively address overall trustworthiness, and many introduce unexpected trade-offs that compromise model utility. These findings also provide practical insights for future improvements, such as the benefits of reasoning to better balance safety and performance. Based on these insights, we introduce a Reasoning-Enhanced Safety Alignment (RESA) approach that equips the model with chain-of-thought reasoning ability to discover the underlying risks, achieving state-of-the-art results.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の信頼性は、その能力の大幅な進歩にもかかわらず、依然として非常に懸念されている。
既存の評価と緩和アプローチは、しばしば、マルチモダリティによってもたらされる狭い側面と見落としのリスクに焦点を当てる。
これらの課題に対処するために,MLLMの信頼性問題を評価,分析,緩和するための総合ベンチマークであるMultiTrust-Xを提案する。
我々は、真実性、堅牢性、安全性、公正性、プライバシを含む5つの信頼性の側面、マルチモーダルリスクとクロスモーダルインパクトをカバーする2つの新しいリスクタイプ、データ、モデルアーキテクチャ、トレーニング、推論アルゴリズムの観点からの様々な緩和戦略を含む3次元フレームワークを定義します。
分類に基づいて、MultiTrust-Xは32のタスクと28のキュレートされたデータセットを含み、30のオープンソースおよびプロプライエタリなMLLMと8つの代表緩和メソッドによる詳細な分析を可能にする。
我々の大規模な実験は、信頼性と一般的な能力のギャップや、マルチモーダルトレーニングと推論の両方によるベースLLMの潜在的なリスクの増幅を含む、現在のモデルにおける重大な脆弱性を明らかにしている。
さらに、制御された分析により、既存の緩和戦略の鍵となる限界が明らかとなり、いくつかの手法は特定の面で改善をもたらす一方で、全体的な信頼性に効果的に対処するものは少なく、多くはモデルユーティリティを損なう予期せぬトレードオフを導入している。
これらの発見は、安全性と性能のバランスを改善するための推論の利点など、将来の改善に対する実践的な洞察を提供する。
これらの知見に基づいて、我々は、モデルにチェーン・オブ・シークレット・推論能力を備え、根底にあるリスクを発見し、最先端の結果を達成するReasoning-Enhanced Safety Alignment (RESA)アプローチを導入する。
関連論文リスト
- Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - SoK: The Security-Safety Continuum of Multimodal Foundation Models through Information Flow and Game-Theoretic Defenses [58.93030774141753]
MFM(Multimodal foundation model)は、多種多様なデータモダリティを統合し、複雑で広範囲なタスクをサポートする。
本稿では,モデル行動とシステムレベルの相互作用の両方から生じる致命的な脅威を特定することで,MFMの文脈における安全性とセキュリティの概念を統一する。
論文 参考訳(メタデータ) (2024-11-17T23:06:20Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。