Fugu-MT 論文翻訳(概要): Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

論文の概要: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

arxiv url: http://arxiv.org/abs/2403.20331v1
Date: Fri, 29 Mar 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 14:55:26.061314
Title: Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models
Title（参考訳）: 解決不可能な問題検出:視覚言語モデルの信頼性を評価する
Authors: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa,
Abstract要約: 本稿では、未解決問題検出(UPD)と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。 UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。 UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含む多くの VLM が, 様々な範囲で我々のベンチマークと競合していることを示す実験を行った。
参考スコア（独自算出の注目度）: 84.78457918843165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed Unsolvable Problem Detection (UPD). UPD examines the VLM's ability to withhold answers when faced with unsolvable problems in the context of Visual Question Answering (VQA) tasks. UPD encompasses three distinct settings: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD). To deeply investigate the UPD problem, extensive experiments indicate that most VLMs, including GPT-4V and LLaVA-Next-34B, struggle with our benchmarks to varying extents, highlighting significant room for the improvements. To address UPD, we explore both training-free and training-based solutions, offering new insights into their effectiveness and limitations. We hope our insights, together with future efforts within the proposed UPD settings, will enhance the broader understanding and development of more practical and reliable VLMs.
Abstract（参考訳）: 本稿では,Unsolvable Problem Detection (UPD) と呼ばれるビジョン言語モデル(VLM)の新規かつ重要な課題を紹介する。 UPDは、VQA(Visual Question Answering)タスクのコンテキストにおいて、解決不可能な問題に直面したときのVLMの回答を抑える能力について検討している。 UPDには、AAD(Absent Answer Detection)、IASD(Incompatible Answer Set Detection)、IVQD(Incompatible Visual Question Detection)の3つの異なる設定が含まれている。 UPD問題を深く研究するため, GPT-4V や LLaVA-Next-34B を含むほとんどの VLM は, 様々な範囲でベンチマークに苦慮し, 改善の余地があることが示唆された。 UPDに対処するため、トレーニングフリーとトレーニングベースの両方のソリューションを検討し、その有効性と制限に関する新たな洞察を提供する。我々は,提案されているUDD設定における今後の取り組みとともに,より実用的で信頼性の高いVLMのより広範な理解と開発を促進することを願っている。

関連論文リスト

Uncertainty-o: One Model-agnostic Framework for Unveiling Uncertainty in Large Multimodal Models [30.709848959820015]
不確実性(Uncertainty-o)は、LMMにおけるモダリティ、アーキテクチャ、能力に関わらず不確実性を明らかにするように設計された、モデルに依存しないフレームワークである。様々なモダリティにまたがる18のベンチマークと10のLMM実験により、LMMの不確かさを確実に推定する不確実性oの有効性が示された。
論文参考訳（メタデータ） (2025-06-09T09:20:20Z)
MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding [27.140576967695413]
大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。最先端のLMMと人間のパフォーマンスの間には、依然として大きなギャップがある。 LMM に挑戦する複雑な実世界の VL タスクのベンチマークである MOAT を提案する。
論文参考訳（メタデータ） (2025-03-12T12:49:31Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor [12.829202761125096]
大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示した。しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。我々はこの誤り訂正過程をシミュレートするLMMの先駆的な研究である。
論文参考訳（メタデータ） (2024-12-08T03:59:59Z)
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。しかし、それらの空間的推論能力は未解明である。我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文参考訳（メタデータ） (2024-11-09T03:07:33Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文参考訳（メタデータ） (2024-09-26T16:31:50Z)
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey [107.08019135783444]
VLM時代のAD, ND, OSR, OOD, ODの進化をカプセル化した一般OOD検出v2を提案する。我々のフレームワークは、いくつかのフィールド不活性と統合により、要求される課題がOOD検出とADになっていることを明らかにしている。
論文参考訳（メタデータ） (2024-07-31T17:59:58Z)
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-07-31T09:23:57Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM [83.98966702271576]
本研究の目的は,大規模マルチモダリティモデル(LMM)に対するポイントクラウド品質評価(PCQA)の知識付与の可能性を検討することである。品質ラベルを微調整段階のテキスト記述に変換することにより、LMMは点雲の2次元投影から品質評価ロジットを導出することができる。提案手法の有効性を実証し,PCQAへのLMMの新たな統合を実証した。
論文参考訳（メタデータ） (2024-04-28T14:47:09Z)
Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文参考訳（メタデータ） (2024-03-07T08:25:27Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。 LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。しかし、この評価手法の堅牢性に関する懸念は続いている。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
On the Robustness of Large Multimodal Models Against Image Adversarial Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。一般的に,LMMは視覚的逆入力に対して頑健ではない。本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-06T04:59:56Z)
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-29T03:10:42Z)
Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文参考訳（メタデータ） (2023-10-03T11:11:55Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。