論文の概要: Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding
- arxiv url: http://arxiv.org/abs/2506.12336v1
- Date: Sat, 14 Jun 2025 04:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.887809
- Title: Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding
- Title(参考訳): ビデオ理解のためのマルチモーダルLLMにおける信頼性の理解と評価
- Authors: Youze Wang, Zijun Chen, Ruoyu Chen, Shishen Gu, Yinpeng Dong, Hang Su, Jun Zhu, Meng Wang, Richang Hong, Wenbo Hu,
- Abstract要約: この研究では、真理、安全性、公正、プライバシの5次元にわたるビデオLLMを評価するベンチマークを紹介します。
現状の映像LLMを23本評価したところ,動的シーン理解とクロスモーダルレジリエンスに大きな限界が認められた。
- 参考スコア(独自算出の注目度): 59.75428247670665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models for video understanding (videoLLMs) have improved their ability to process dynamic multimodal data. However, trustworthiness challenges factual inaccuracies, harmful content, biases, hallucinations, and privacy risks, undermine reliability due to video data's spatiotemporal complexities. This study introduces Trust-videoLLMs, a comprehensive benchmark evaluating videoLLMs across five dimensions: truthfulness, safety, robustness, fairness, and privacy. Comprising 30 tasks with adapted, synthetic, and annotated videos, the framework assesses dynamic visual scenarios, cross-modal interactions, and real-world safety concerns. Our evaluation of 23 state-of-the-art videoLLMs (5 commercial,18 open-source) reveals significant limitations in dynamic visual scene understanding and cross-modal perturbation resilience. Open-source videoLLMs show occasional truthfulness advantages but inferior overall credibility compared to commercial models, with data diversity outperforming scale effects. These findings highlight the need for advanced safety alignment to enhance capabilities. Trust-videoLLMs provides a publicly available, extensible toolbox for standardized trustworthiness assessments, bridging the gap between accuracy-focused benchmarks and critical demands for robustness, safety, fairness, and privacy.
- Abstract(参考訳): ビデオ理解のためのマルチモーダル大言語モデル(ビデオLLM)の最近の進歩により、動的マルチモーダルデータを処理する能力が改善されている。
しかし、信頼性は、実際の不正確さ、有害なコンテンツ、バイアス、幻覚、プライバシーリスクに挑戦し、ビデオデータの時空間的複雑さのために信頼性を損なう。
この研究では、真実性、安全性、堅牢性、公正性、プライバシの5つの側面にわたるビデオLLMを評価する包括的なベンチマークであるTrust-videoLLMを紹介します。
適応、合成、注釈付きビデオを含む30のタスクを含むこのフレームワークは、動的視覚シナリオ、クロスモーダルインタラクション、および現実世界の安全性に関する懸念を評価する。
また,23の最先端ビデオLLM(5つの商用,18のオープンソース)を評価した結果,動的シーン理解と相互摂動レジリエンスに大きな限界が認められた。
オープンソースのビデオLLMは、時折真の優位性を示すが、商用モデルに比べて全体的な信頼性は劣る。
これらの知見は、能力を高めるための高度な安全アライメントの必要性を浮き彫りにしている。
Trust-videoLLMsは、標準化された信頼性評価のための公開可能な拡張可能なツールボックスを提供し、正確性を重視したベンチマークと堅牢性、安全性、公正性、プライバシに対する重要な要求の間のギャップを埋める。
関連論文リスト
- REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - MVTamperBench: Evaluating Robustness of Vision-Language Models [5.062181035021214]
textbfMVTamperBenchは、MLLMの強靭性を5つの一般的なタンパリング手法に対して体系的に評価するベンチマークである。
MVTamperBenchは3.4Kのオリジナルビデオで構成され、19の異なるビデオ操作タスクをカバーする17K以上のタンパー付きクリップに拡張されている。
論文 参考訳(メタデータ) (2024-12-27T18:47:05Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。