Fugu-MT 論文翻訳(概要): Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

論文の概要: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

arxiv url: http://arxiv.org/abs/2401.06591v1
Date: Fri, 12 Jan 2024 14:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 19:22:32.136025
Title: Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation
Title（参考訳）: prometheus-vision: きめ細かな評価のための判断としてのビジョン言語モデル
Authors: Seongyun Lee and Seungone Kim and Sue Hyun Park and Geewook Kim and Minjoon Seo
Abstract要約: Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。 Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
参考スコア（独自算出の注目度）: 31.062433484245684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assessing long-form responses generated by Vision-Language Models (VLMs) is challenging. It not only requires checking whether the VLM follows the given instruction but also verifying whether the text output is properly grounded on the given image. Inspired by the recent approach of evaluating LMs with LMs, in this work, we propose to evaluate VLMs with VLMs. For this purpose, we present a new feedback dataset called the Perception Collection, encompassing 15K customized score rubrics that users might care about during assessment. Using the Perception Collection, we train Prometheus-Vision, the first open-source VLM evaluator model that can understand the user-defined score criteria during evaluation. Prometheus-Vision shows the highest Pearson correlation with human evaluators and GPT-4V among open-source models, showing its effectiveness for transparent and accessible evaluation of VLMs. We open-source our code, dataset, and model at https://github.com/kaistAI/prometheus-vision
Abstract（参考訳）: VLM(Vision-Language Models)による長文応答の評価は困難である。 vlmが所定の命令に従うかどうかの確認だけでなく、テキスト出力が所定の画像に適切に接しているかどうかの検証も必要である。本研究は, VLM を用いた VLM の評価手法に着想を得て, VLM を用いた VLM の評価手法を提案する。そこで本研究では,評価中にユーザが関心を持つであろう15kのスコアラブリックを包含する,知覚収集と呼ばれる新しいフィードバックデータセットを提案する。パーセプションコレクションを用いて、評価中にユーザ定義スコアの基準を理解することができるオープンソースのVLM評価モデルであるPrometheus-Visionを訓練する。 Prometheus-Visionは、オープンソースモデルにおいて、人間の評価器とGPT-4VとのPearson相関が最も高く、VLMの透過的かつアクセス可能な評価に有効であることを示す。私たちはhttps://github.com/kaistAI/prometheus-visionでコード、データセット、モデルをオープンソース化しました。

関連論文リスト

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.199060287444162]
本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。 UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文参考訳（メタデータ） (2025-03-13T01:52:27Z)
Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark [22.128954880120222]
近年のVLM(Vision-Language Models)の普及は、厳密で包括的な評価手法とベンチマークを求めている。この研究は、自動化されたメトリクス、AIベースの評価、さまざまなタスクにわたる人的評価を含む、既存のVLM評価技術を分析する。
論文参考訳（メタデータ） (2025-01-16T17:08:12Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts [39.72461455275383]
我々は、Schwartzの値次元に基づいて視覚言語モデル(VLM)を評価するためのベンチマークであるValue-Spectrumを紹介する。我々は、TikTok、YouTube Shorts、Instagram Reelsからソースされた5万本以上の短いビデオをベクター化したデータベースを構築しました。また,ビデオ閲覧と解析を自動化するVLMエージェントパイプラインを開発した。
論文参考訳（メタデータ） (2024-11-18T11:31:10Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。近年の研究では、VLMは幻覚に弱いことが示されている。我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文参考訳（メタデータ） (2024-07-18T12:11:12Z)
Review-LLM: Harnessing Large Language Models for Personalized Review Generation [8.898103706804616]
大規模言語モデル(LLM)は、優れたテキストモデリングと生成能力を示している。パーソナライズされたレビュー生成のためのLLMをカスタマイズするReview-LLMを提案する。
論文参考訳（メタデータ） (2024-07-10T09:22:19Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文参考訳（メタデータ） (2023-11-27T18:59:42Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。