論文の概要: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
- arxiv url: http://arxiv.org/abs/2406.07057v1
- Date: Tue, 11 Jun 2024 08:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:54:22.845823
- Title: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
- Title(参考訳): マルチモーダル大言語モデルの信頼性ベンチマーク : 総合的研究
- Authors: Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu,
- Abstract要約: MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
- 参考スコア(独自算出の注目度): 51.19622266249408
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the superior capabilities of Multimodal Large Language Models (MLLMs) across diverse tasks, they still face significant trustworthiness challenges. Yet, current literature on the assessment of trustworthy MLLMs remains limited, lacking a holistic evaluation to offer thorough insights into future improvements. In this work, we establish MultiTrust, the first comprehensive and unified benchmark on the trustworthiness of MLLMs across five primary aspects: truthfulness, safety, robustness, fairness, and privacy. Our benchmark employs a rigorous evaluation strategy that addresses both multimodal risks and cross-modal impacts, encompassing 32 diverse tasks with self-curated datasets. Extensive experiments with 21 modern MLLMs reveal some previously unexplored trustworthiness issues and risks, highlighting the complexities introduced by the multimodality and underscoring the necessity for advanced methodologies to enhance their reliability. For instance, typical proprietary models still struggle with the perception of visually confusing images and are vulnerable to multimodal jailbreaking and adversarial attacks; MLLMs are more inclined to disclose privacy in text and reveal ideological and cultural biases even when paired with irrelevant images in inference, indicating that the multimodality amplifies the internal risks from base LLMs. Additionally, we release a scalable toolbox for standardized trustworthiness research, aiming to facilitate future advancements in this important field. Code and resources are publicly available at: https://multi-trust.github.io/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の様々なタスクにまたがる優れた能力にもかかわらず、それらは依然として重大な信頼性の課題に直面している。
しかし、信頼性の高いMLLMの評価に関する現在の文献は限定的であり、今後の改善に関する詳細な洞察を提供するための総合的な評価が欠如している。
本研究では,MLLMの信頼性に関する最初の総合的かつ統一的なベンチマークであるMultiTrustを,真理性,安全性,堅牢性,公正性,プライバシの5つの面で確立する。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用しており、32のタスクを自己計算したデータセットでカバーしている。
21の近代MLLMによる大規模な実験は、これまで未解決の信頼性の問題とリスクを明らかにし、マルチモーダリティによって導入された複雑さを強調し、その信頼性を高めるための高度な方法論の必要性を強調している。
例えば、典型的なプロプライエタリなモデルは、視覚的に紛らわしいイメージの認識に苦慮し、マルチモーダルなジェイルブレイクや敵対的攻撃に弱い;MLLMは、テキストでプライバシを開示し、推論において無関係なイメージと組み合わせてもイデオロギーや文化的バイアスを明らかにする傾向があり、マルチモーダルがベースLLMの内部リスクを増幅することを示している。
さらに、我々は、この重要な分野における将来の進歩を促進することを目的として、標準化された信頼性研究のためのスケーラブルなツールボックスをリリースする。
コードとリソースは、https://multi-trust.github.io/.comで公開されている。
関連論文リスト
- MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。
バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。
13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文 参考訳(メタデータ) (2024-06-11T13:41:33Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文 参考訳(メタデータ) (2024-01-26T18:53:03Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。