論文の概要: PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions
- arxiv url: http://arxiv.org/abs/2510.19060v1
- Date: Tue, 21 Oct 2025 20:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.63225
- Title: PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions
- Title(参考訳): PoSh: 詳細な画像記述のために、Scene Graphsを使ってLCMs-as-a-Judgeをガイドする
- Authors: Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford, Julia Demarest, Adam Purvis, Keith Krut, Robert Stein, Rina Elster Pantalony, Mohit Bansal, Kathleen McKeown,
- Abstract要約: PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。
PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。
我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
- 参考スコア(独自算出の注目度): 55.95282725491425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision-language models (VLMs) have advanced into detailed image description, evaluation remains a challenge. Standard metrics (e.g. CIDEr, SPICE) were designed for short texts and tuned to recognize errors that are now uncommon, such as object misidentification. In contrast, long texts require sensitivity to attribute and relation attachments and scores that localize errors to particular text spans. In this work, we introduce PoSh, a metric for detailed image description that uses scene graphs as structured rubrics to guide LLMs-as-a-Judge, producing aggregate scores grounded in fine-grained errors (e.g. mistakes in compositional understanding). PoSh is replicable, interpretable and a better proxy for human raters than existing metrics (including GPT4o-as-a-Judge). To validate PoSh, we introduce a challenging new dataset, DOCENT. This novel benchmark contains artwork, paired with expert-written references, and model-generated descriptions, augmented with granular and coarse judgments of their quality from art history students. Thus, DOCENT enables evaluating both detailed image description metrics and detailed image description itself in a challenging new domain. We show that PoSh achieves stronger correlations (+0.05 Spearman $\rho$) with the human judgments in DOCENT than the best open-weight alternatives, is robust to image type (using CapArena, an existing dataset of web imagery) and is a capable reward function, outperforming standard supervised fine-tuning. Then, using PoSh, we characterize the performance of open and closed models in describing the paintings, sketches and statues in DOCENT and find that foundation models struggle to achieve full, error-free coverage of images with rich scene dynamics, establishing a demanding new task to gauge VLM progress. Through both PoSh and DOCENT, we hope to enable advances in important areas such as assistive text generation.
- Abstract(参考訳): 視覚言語モデル(VLM)は詳細な画像記述に進化してきたが、評価は依然として課題である。
標準メトリクス(例えば、CIDEr、SPICE)は短いテキストのために設計され、オブジェクトの誤識別など、現在一般的でないエラーを認識するように調整された。
対照的に、長いテキストは属性や関係のアタッチメントに対する感度と、特定のテキストスパンにエラーをローカライズするスコアを必要とする。
本稿では,LLMs-as-a-Judgeのガイドとしてシーングラフを用いた詳細な画像記述のための指標PoShを紹介する。
PoShは、既存のメトリクス(GPT4o-as-a-Judgeを含む)よりもレプリカ可能で、解釈可能で、人間のレーダのプロキシが優れている。
PoShを検証するために、我々は挑戦的な新しいデータセットであるDOCENTを導入した。
この新しいベンチマークには、専門家による参照と組み合わせたアートワークと、モデル生成記述が含まれており、美術史の学生によるその品質の粒度と粗い判断が強化されている。
したがって、DOCENTは、詳細な画像記述メトリクスと詳細な画像記述自体を、挑戦的な新しいドメインで評価することができる。
従来のウェブ画像のデータセットであるCapArenaを用いて) 画像タイプに頑健であり, 標準的な教師付き微調整よりも優れた報酬関数である。
そして,PoShを用いてDOCENTの絵画,スケッチ,彫像の描写において,オープンおよびクローズドなモデルの性能を特徴付けるとともに,リッチシーンのダイナミックスによる画像の完全かつエラーのないカバレッジの実現に苦慮し,VLMの進捗を計測する新たなタスクを確立する。
PoShとDOCENTの両方を通じて、補助テキスト生成などの重要な分野での進歩を期待する。
関連論文リスト
- TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。