論文の概要: AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.15206v1
- Date: Thu, 19 Dec 2024 18:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:22.346613
- Title: AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving
- Title(参考訳): AutoTrust: 自動運転のための大規模ビジョン言語モデルにおける信頼性のベンチマーク
- Authors: Shuo Xing, Hongyuan Hua, Xiangbo Gao, Shenzhe Zhu, Renjie Li, Kexin Tian, Xiaopeng Li, Heng Huang, Tianbao Yang, Zhangyang Wang, Yang Zhou, Huaxiu Yao, Zhengzhong Tu,
- Abstract要約: 自動運転における大規模ビジョン言語モデル(DriveVLM)のための総合的信頼度ベンチマークであるAutoTrustを紹介する。
シナリオを駆動する際の信頼性問題を調べるために,最も大きな視覚的質問応答データセットを構築した。
私たちの評価では、DriveVLMの脆弱性を信頼性の脅威に対して明らかにしました。
- 参考スコア(独自算出の注目度): 106.0319745724181
- License:
- Abstract: Recent advancements in large vision language models (VLMs) tailored for autonomous driving (AD) have shown strong scene understanding and reasoning capabilities, making them undeniable candidates for end-to-end driving systems. However, limited work exists on studying the trustworthiness of DriveVLMs -- a critical factor that directly impacts public transportation safety. In this paper, we introduce AutoTrust, a comprehensive trustworthiness benchmark for large vision-language models in autonomous driving (DriveVLMs), considering diverse perspectives -- including trustfulness, safety, robustness, privacy, and fairness. We constructed the largest visual question-answering dataset for investigating trustworthiness issues in driving scenarios, comprising over 10k unique scenes and 18k queries. We evaluated six publicly available VLMs, spanning from generalist to specialist, from open-source to commercial models. Our exhaustive evaluations have unveiled previously undiscovered vulnerabilities of DriveVLMs to trustworthiness threats. Specifically, we found that the general VLMs like LLaVA-v1.6 and GPT-4o-mini surprisingly outperform specialized models fine-tuned for driving in terms of overall trustworthiness. DriveVLMs like DriveLM-Agent are particularly vulnerable to disclosing sensitive information. Additionally, both generalist and specialist VLMs remain susceptible to adversarial attacks and struggle to ensure unbiased decision-making across diverse environments and populations. Our findings call for immediate and decisive action to address the trustworthiness of DriveVLMs -- an issue of critical importance to public safety and the welfare of all citizens relying on autonomous transportation systems. Our benchmark is publicly available at \url{https://github.com/taco-group/AutoTrust}, and the leaderboard is released at \url{https://taco-group.github.io/AutoTrust/}.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の最近の進歩は、自律運転(AD)に適した場面理解と推論能力を示しており、エンドツーエンドの運転システムには不確実な候補となっている。
しかし、DriveVLMsの信頼性についての研究は限られており、公共交通機関の安全に直接影響を及ぼす重要な要因となっている。
本稿では、信頼性、安全性、堅牢性、プライバシ、公正性など、さまざまな視点を考慮して、自動運転(DriveVLM)における大規模ビジョン言語モデルの総合的信頼性ベンチマークであるAutoTrustを紹介する。
シナリオを駆動する際の信頼性問題を調べるために,最大規模の視覚的質問応答データセットを構築した。
我々は、ジェネラリストからスペシャリストまで、オープンソースから商用モデルまで、利用可能な6つのVLMを評価した。
当社の徹底的な評価では、DriveVLMの脆弱性を信頼性の脅威として明らかにしました。
具体的には、LLaVA-v1.6 や GPT-4o-mini のような一般的な VLM は、総合的信頼性の観点から、運転用に微調整された特別モデルよりも驚くほど優れていた。
DriveLM-AgentのようなDriveVLMは、機密情報の開示に特に脆弱である。
さらに、ジェネラリストとスペシャリストのVLMは、様々な環境や人口にまたがる不公平な意思決定の確保に苦慮している。
我々の発見は、DriveVLMsの信頼性に即時かつ決定的な対応を求めるもので、公共の安全と、自律的な交通システムに依存しているすべての市民の福祉にとって重要な課題である。
我々のベンチマークは \url{https://github.com/taco-group/AutoTrust} で公開されており、リーダーボードは \url{https://taco-group.github.io/AutoTrust/} で公開されている。
関連論文リスト
- Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving [24.485164073626674]
各国から収集された100万件以上のデータを含む大規模データセットであるIDKBを提案する。
運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。
論文 参考訳(メタデータ) (2024-09-04T17:52:43Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - A Superalignment Framework in Autonomous Driving with Large Language Models [2.650382010271]
大規模言語モデル (LLM) と多モード大規模言語モデル (MLLM) は、自律運転において広く使われている。
その重要性にもかかわらず、自動運転におけるLLMのセキュリティの側面は未解明のままである。
本研究は,マルチエージェントLLMアプローチを利用した,自動運転車の新たなセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T05:26:38Z) - Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。
BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。
BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文 参考訳(メタデータ) (2024-04-19T14:40:38Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。