論文の概要: Uncertainty-Aware Evaluation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.14418v1
- Date: Thu, 22 Feb 2024 10:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:46:24.116173
- Title: Uncertainty-Aware Evaluation for Vision-Language Models
- Title(参考訳): 視覚言語モデルの不確実性評価
- Authors: Vasily Kostumov, Bulat Nutfullin, Oleg Pilipenko, Eugene Ilyushin
- Abstract要約: 現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models like GPT-4, LLaVA, and CogVLM have surged in
popularity recently due to their impressive performance in several
vision-language tasks. Current evaluation methods, however, overlook an
essential component: uncertainty, which is crucial for a comprehensive
assessment of VLMs. Addressing this oversight, we present a benchmark
incorporating uncertainty quantification into evaluating VLMs.
Our analysis spans 20+ VLMs, focusing on the multiple-choice Visual Question
Answering (VQA) task. We examine models on 5 datasets that evaluate various
vision-language capabilities.
Using conformal prediction as an uncertainty estimation approach, we
demonstrate that the models' uncertainty is not aligned with their accuracy.
Specifically, we show that models with the highest accuracy may also have the
highest uncertainty, which confirms the importance of measuring it for VLMs.
Our empirical findings also reveal a correlation between model uncertainty and
its language model part.
- Abstract(参考訳): GPT-4、LLaVA、CagVLMといったビジョン言語モデルは最近、視覚言語タスクにおける印象的なパフォーマンスのために人気が高まっている。
しかしながら、現在の評価手法は、VLMの総合的な評価に欠かせない不確実性という重要な要素を見落としている。
本稿では,VLMの評価に不確実な定量化を取り入れたベンチマークを提案する。
VQA(Multiple-choice Visual Question Answering)タスクに着目し,20以上のVLMを対象として分析を行った。
様々な視覚言語能力を評価する5つのデータセットのモデルについて検討する。
不確実性推定手法として共形予測を用いることで,モデルの不確実性が精度と一致しないことを示す。
具体的には,高い精度を持つモデルが最も不確実性が高い可能性を示し,vlm測定の重要性を確認した。
また,実験結果から,モデル不確かさと言語モデルとの相関性も明らかとなった。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-05T12:51:38Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Multi-Perspective Consistency Enhances Confidence Estimation in Large
Language Models [27.63938857490995]
本研究は,大規模言語モデルの信頼性評価の改善に焦点を当てる。
言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。
8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T13:37:39Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - VALSE: A Task-Independent Benchmark for Vision and Language Models
Centered on Linguistic Phenomena [15.984927623688915]
VALSE(Vision And Language Structured Evaluation)は、汎用的な事前学習型視覚と言語(V&L)モデルをテストするための新しいベンチマークである。
VALSEは、様々な言語構造をカバーする6つのテストスイートを提供する。
我々は有効なホイルの構築を支援する手法を用いてVALSEを構築し、5つの広く使われているV&Lモデルの評価結果について報告する。
論文 参考訳(メタデータ) (2021-12-14T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。