論文の概要: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
- arxiv url: http://arxiv.org/abs/2403.20331v1
- Date: Fri, 29 Mar 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.061314
- Title: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
- Title(参考訳): 解決不可能な問題検出:視覚言語モデルの信頼性を評価する
- Authors: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa,
- Abstract要約: 本稿では、未解決問題検出(UPD)と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。
UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。
UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含む多くの VLM が, 様々な範囲で我々のベンチマークと競合していることを示す実験を行った。
- 参考スコア(独自算出の注目度): 84.78457918843165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed Unsolvable Problem Detection (UPD). UPD examines the VLM's ability to withhold answers when faced with unsolvable problems in the context of Visual Question Answering (VQA) tasks. UPD encompasses three distinct settings: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD). To deeply investigate the UPD problem, extensive experiments indicate that most VLMs, including GPT-4V and LLaVA-Next-34B, struggle with our benchmarks to varying extents, highlighting significant room for the improvements. To address UPD, we explore both training-free and training-based solutions, offering new insights into their effectiveness and limitations. We hope our insights, together with future efforts within the proposed UPD settings, will enhance the broader understanding and development of more practical and reliable VLMs.
- Abstract(参考訳): 本稿では,Unsolvable Problem Detection (UPD) と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。
UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。
UPDには、AAD(Absent Answer Detection)、IASD(Incompatible Answer Set Detection)、IVQD(Incompatible Visual Question Detection)の3つの異なる設定が含まれている。
UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含むほとんどの VLM は, 様々な範囲でベンチマークに苦慮し, 改善の余地があることが示唆された。
UPDに対処するため、トレーニングフリーとトレーニングベースの両方のソリューションを検討し、その有効性と制限に関する新たな洞察を提供する。
我々は,提案されているUDD設定における今後の取り組みとともに,より実用的で信頼性の高いVLMのより広範な理解と開発を促進することを願っている。
関連論文リスト
- DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey [107.08019135783444]
VLM時代のAD, ND, OSR, OOD, ODの進化をカプセル化した一般OOD検出v2を提案する。
我々のフレームワークは、いくつかのフィールド不活性と統合により、要求される課題がOOD検出とADになっていることを明らかにしている。
論文 参考訳(メタデータ) (2024-07-31T17:59:58Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。