論文の概要: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
- arxiv url: http://arxiv.org/abs/2403.20331v1
- Date: Fri, 29 Mar 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.061314
- Title: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
- Title(参考訳): 解決不可能な問題検出:視覚言語モデルの信頼性を評価する
- Authors: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa,
- Abstract要約: 本稿では、未解決問題検出(UPD)と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。
UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。
UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含む多くの VLM が, 様々な範囲で我々のベンチマークと競合していることを示す実験を行った。
- 参考スコア(独自算出の注目度): 84.78457918843165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed Unsolvable Problem Detection (UPD). UPD examines the VLM's ability to withhold answers when faced with unsolvable problems in the context of Visual Question Answering (VQA) tasks. UPD encompasses three distinct settings: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD). To deeply investigate the UPD problem, extensive experiments indicate that most VLMs, including GPT-4V and LLaVA-Next-34B, struggle with our benchmarks to varying extents, highlighting significant room for the improvements. To address UPD, we explore both training-free and training-based solutions, offering new insights into their effectiveness and limitations. We hope our insights, together with future efforts within the proposed UPD settings, will enhance the broader understanding and development of more practical and reliable VLMs.
- Abstract(参考訳): 本稿では,Unsolvable Problem Detection (UPD) と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。
UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。
UPDには、AAD(Absent Answer Detection)、IASD(Incompatible Answer Set Detection)、IVQD(Incompatible Visual Question Detection)の3つの異なる設定が含まれている。
UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含むほとんどの VLM は, 様々な範囲でベンチマークに苦慮し, 改善の余地があることが示唆された。
UPDに対処するため、トレーニングフリーとトレーニングベースの両方のソリューションを検討し、その有効性と制限に関する新たな洞察を提供する。
我々は,提案されているUDD設定における今後の取り組みとともに,より実用的で信頼性の高いVLMのより広範な理解と開発を促進することを願っている。
関連論文リスト
- Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオに6つの挑戦的なタスクを採用しています。
本研究は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚認識および局所化性能について検討する。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Towards a Unified Multimodal Reasoning Framework [0.5120567378386615]
本稿では,チェーン・オブ・ソート(CoT)推論と視覚質問応答(VQA)技術の組み合わせがもたらす影響について検討する。
テキストVQAとScienceQAのデータセットを用いて、3つのテキスト埋め込み手法と3つの視覚埋め込み手法の有効性を評価した。
実験の結果,これらの手法がLMの推論能力と質問応答能力を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2023-12-22T19:07:00Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering [9.110942712627356]
視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。
本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。