論文の概要: Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2403.20331v3
- Date: Sun, 27 Apr 2025 19:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.699296
- Title: Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
- Title(参考訳): 未解決問題検出:大規模マルチモーダルモデルのロバスト理解評価
- Authors: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa,
- Abstract要約: Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。
UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。
実験の結果,既存のベンチマークで十分な性能を示すほとんどのLMMでも,MM-UPDとはかなり苦労していることがわかった。
- 参考スコア(独自算出の注目度): 84.78457918843165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel task to evaluate the robust understanding capability of Large Multimodal Models (LMMs), termed $\textbf{Unsolvable Problem Detection (UPD)}$. Multiple-choice question answering (MCQA) is widely used to assess the understanding capability of LMMs, but it does not guarantee that LMMs truly comprehend the answer. UPD assesses the LMM's ability to withhold answers when encountering unsolvable problems of MCQA, verifying whether the model truly understands the answer. UPD encompasses three problems: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD), covering unsolvable cases like answer-lacking or incompatible choices and image-question mismatches. For the evaluation, we introduce the MM-UPD Bench, a benchmark for assessing performance across various ability dimensions. Our experiments reveal that even most LMMs, which demonstrate adequate performance on existing benchmarks, struggle significantly with MM-UPD, underscoring a novel aspect of trustworthiness that current benchmarks have overlooked. A detailed analysis shows that LMMs have different bottlenecks and chain-of-thought and self-reflection improved performance for LMMs with the bottleneck in their LLM capability. We hope our insights will enhance the broader understanding and development of more reliable LMMs.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)の頑健な理解能力を評価するために,$\textbf{Unsolvable Problem Detection (UPD)$という新しいタスクを提案する。
LMMの理解能力を評価するためにMCQA(Multi-choice Question answering)が広く用いられているが、LMMが真にその答えを理解することは保証されていない。
UPDは、MCQAの解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価し、モデルが答えを真に理解しているかどうかを検証する。
UPDには、AAD(Absent Answer Detection)、IASD(Incompatible Answer Set Detection)、IVQD(Incompatible Visual Question Detection)の3つの問題が含まれている。
評価にはMM-UPD Benchを導入する。
我々の実験によると、既存のベンチマークで十分な性能を示すほとんどのLMMでさえ、MM-UPDとかなり苦労しており、現在のベンチマークが見落としている新しい信頼性の側面を浮き彫りにしている。
詳細な分析により、LMMはLLM能力のボトルネックを伴って、異なるボトルネックとチェーン・オブ・シンクと自己回帰によりLMMのパフォーマンスが向上したことが示された。
私たちの洞察が、より信頼性の高いLMMのより広範な理解と開発を促進することを願っています。
関連論文リスト
- MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding [27.140576967695413]
大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。
最先端のLMMと人間のパフォーマンスの間には、依然として大きなギャップがある。
LMM に挑戦する複雑な実世界の VL タスクのベンチマークである MOAT を提案する。
論文 参考訳(メタデータ) (2025-03-12T12:49:31Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor [12.829202761125096]
大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示した。
しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。
我々はこの誤り訂正過程をシミュレートするLMMの先駆的な研究である。
論文 参考訳(メタデータ) (2024-12-08T03:59:59Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey [107.08019135783444]
VLM時代のAD, ND, OSR, OOD, ODの進化をカプセル化した一般OOD検出v2を提案する。
我々のフレームワークは、いくつかのフィールド不活性と統合により、要求される課題がOOD検出とADになっていることを明らかにしている。
論文 参考訳(メタデータ) (2024-07-31T17:59:58Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM [83.98966702271576]
本研究の目的は,大規模マルチモダリティモデル(LMM)に対するポイントクラウド品質評価(PCQA)の知識付与の可能性を検討することである。
品質ラベルを微調整段階のテキスト記述に変換することにより、LMMは点雲の2次元投影から品質評価ロジットを導出することができる。
提案手法の有効性を実証し,PCQAへのLMMの新たな統合を実証した。
論文 参考訳(メタデータ) (2024-04-28T14:47:09Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。