論文の概要: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation
- arxiv url: http://arxiv.org/abs/2401.06591v1
- Date: Fri, 12 Jan 2024 14:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:22:32.136025
- Title: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation
- Title(参考訳): prometheus-vision: きめ細かな評価のための判断としてのビジョン言語モデル
- Authors: Seongyun Lee and Seungone Kim and Sue Hyun Park and Geewook Kim and
Minjoon Seo
- Abstract要約: Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。
Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
- 参考スコア(独自算出の注目度): 31.062433484245684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing long-form responses generated by Vision-Language Models (VLMs) is
challenging. It not only requires checking whether the VLM follows the given
instruction but also verifying whether the text output is properly grounded on
the given image. Inspired by the recent approach of evaluating LMs with LMs, in
this work, we propose to evaluate VLMs with VLMs. For this purpose, we present
a new feedback dataset called the Perception Collection, encompassing 15K
customized score rubrics that users might care about during assessment. Using
the Perception Collection, we train Prometheus-Vision, the first open-source
VLM evaluator model that can understand the user-defined score criteria during
evaluation. Prometheus-Vision shows the highest Pearson correlation with human
evaluators and GPT-4V among open-source models, showing its effectiveness for
transparent and accessible evaluation of VLMs. We open-source our code,
dataset, and model at https://github.com/kaistAI/prometheus-vision
- Abstract(参考訳): VLM(Vision-Language Models)による長文応答の評価は困難である。
vlmが所定の命令に従うかどうかの確認だけでなく、テキスト出力が所定の画像に適切に接しているかどうかの検証も必要である。
本研究は, VLM を用いた VLM の評価手法に着想を得て, VLM を用いた VLM の評価手法を提案する。
そこで本研究では,評価中にユーザが関心を持つであろう15kのスコアラブリックを包含する,知覚収集と呼ばれる新しいフィードバックデータセットを提案する。
パーセプションコレクションを用いて、評価中にユーザ定義スコアの基準を理解することができるオープンソースのVLM評価モデルであるPrometheus-Visionを訓練する。
Prometheus-Visionは、オープンソースモデルにおいて、人間の評価器とGPT-4VとのPearson相関が最も高く、VLMの透過的かつアクセス可能な評価に有効であることを示す。
私たちはhttps://github.com/kaistAI/prometheus-visionでコード、データセット、モデルをオープンソース化しました。
関連論文リスト
- Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark [22.128954880120222]
近年のVLM(Vision-Language Models)の普及は、厳密で包括的な評価手法とベンチマークを求めている。
この研究は、自動化されたメトリクス、AIベースの評価、さまざまなタスクにわたる人的評価を含む、既存のVLM評価技術を分析する。
論文 参考訳(メタデータ) (2025-01-16T17:08:12Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts [33.12056808870413]
本稿では、視覚言語モデル(VLM)の評価を目的とした、新しい視覚質問回答(VQA)ベンチマークであるValue-Spectrumを紹介する。
我々は、ビデオブラウジングをシミュレートするVLMエージェントパイプラインを設計し、TikTok、YouTube Shorts、Instagram Reelsの5万本以上のショートビデオからなるベクトルデータベースを構築した。
Value-Spectrumのベンチマークでは、VLMがバリュー指向のコンテンツをどのように扱うかについて、顕著なバリエーションが強調されている。
論文 参考訳(メタデータ) (2024-11-18T11:31:10Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。