論文の概要: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation
- arxiv url: http://arxiv.org/abs/2401.06591v1
- Date: Fri, 12 Jan 2024 14:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:22:32.136025
- Title: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation
- Title(参考訳): prometheus-vision: きめ細かな評価のための判断としてのビジョン言語モデル
- Authors: Seongyun Lee and Seungone Kim and Sue Hyun Park and Geewook Kim and
Minjoon Seo
- Abstract要約: Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。
Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
- 参考スコア(独自算出の注目度): 31.062433484245684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing long-form responses generated by Vision-Language Models (VLMs) is
challenging. It not only requires checking whether the VLM follows the given
instruction but also verifying whether the text output is properly grounded on
the given image. Inspired by the recent approach of evaluating LMs with LMs, in
this work, we propose to evaluate VLMs with VLMs. For this purpose, we present
a new feedback dataset called the Perception Collection, encompassing 15K
customized score rubrics that users might care about during assessment. Using
the Perception Collection, we train Prometheus-Vision, the first open-source
VLM evaluator model that can understand the user-defined score criteria during
evaluation. Prometheus-Vision shows the highest Pearson correlation with human
evaluators and GPT-4V among open-source models, showing its effectiveness for
transparent and accessible evaluation of VLMs. We open-source our code,
dataset, and model at https://github.com/kaistAI/prometheus-vision
- Abstract(参考訳): VLM(Vision-Language Models)による長文応答の評価は困難である。
vlmが所定の命令に従うかどうかの確認だけでなく、テキスト出力が所定の画像に適切に接しているかどうかの検証も必要である。
本研究は, VLM を用いた VLM の評価手法に着想を得て, VLM を用いた VLM の評価手法を提案する。
そこで本研究では,評価中にユーザが関心を持つであろう15kのスコアラブリックを包含する,知覚収集と呼ばれる新しいフィードバックデータセットを提案する。
パーセプションコレクションを用いて、評価中にユーザ定義スコアの基準を理解することができるオープンソースのVLM評価モデルであるPrometheus-Visionを訓練する。
Prometheus-Visionは、オープンソースモデルにおいて、人間の評価器とGPT-4VとのPearson相関が最も高く、VLMの透過的かつアクセス可能な評価に有効であることを示す。
私たちはhttps://github.com/kaistAI/prometheus-visionでコード、データセット、モデルをオープンソース化しました。
関連論文リスト
- Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts [39.72461455275383]
我々は、Schwartzの値次元に基づいて視覚言語モデル(VLM)を評価するためのベンチマークであるValue-Spectrumを紹介する。
我々は、TikTok、YouTube Shorts、Instagram Reelsからソースされた5万本以上の短いビデオをベクター化したデータベースを構築しました。
また,ビデオ閲覧と解析を自動化するVLMエージェントパイプラインを開発した。
論文 参考訳(メタデータ) (2024-11-18T11:31:10Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - Review-LLM: Harnessing Large Language Models for Personalized Review Generation [8.898103706804616]
大規模言語モデル(LLM)は、優れたテキストモデリングと生成能力を示している。
パーソナライズされたレビュー生成のためのLLMをカスタマイズするReview-LLMを提案する。
論文 参考訳(メタデータ) (2024-07-10T09:22:19Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。