論文の概要: IRR: Image Review Ranking Framework for Evaluating Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.12121v2
- Date: Mon, 16 Dec 2024 16:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:26.829626
- Title: IRR: Image Review Ranking Framework for Evaluating Vision-Language Models
- Title(参考訳): IRR:ビジョンランゲージモデル評価のための画像レビューランキングフレームワーク
- Authors: Kazuki Hayashi, Kazuma Onishi, Toma Suzuki, Yusuke Ide, Seiji Gobara, Shigeki Saito, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe,
- Abstract要約: 大規模ビジョンランゲージモデル(LVLM)は画像とテキストの両方を処理し、画像キャプションや記述生成などのマルチモーダルタスクに優れる。
IRR: Image Review Rankは,批判的レビューテキストを多視点から評価するための新しい評価フレームワークである。
我々は15のカテゴリの画像のデータセットを用いて評価し、それぞれに5つの批評家レビューテキストと、英語と日本語の注釈付きランキングがあり、合計2000以上のデータインスタンスがある。
- 参考スコア(独自算出の注目度): 25.014419357308192
- License:
- Abstract: Large-scale Vision-Language Models (LVLMs) process both images and text, excelling in multimodal tasks such as image captioning and description generation. However, while these models excel at generating factual content, their ability to generate and evaluate texts reflecting perspectives on the same image, depending on the context, has not been sufficiently explored. To address this, we propose IRR: Image Review Rank, a novel evaluation framework designed to assess critic review texts from multiple perspectives. IRR evaluates LVLMs by measuring how closely their judgments align with human interpretations. We validate it using a dataset of images from 15 categories, each with five critic review texts and annotated rankings in both English and Japanese, totaling over 2,000 data instances. The datasets are available at https://hf.co/datasets/naist-nlp/Wiki-ImageReview1.0. Our results indicate that, although LVLMs exhibited consistent performance across languages, their correlation with human annotations was insufficient, highlighting the need for further advancements. These findings highlight the limitations of current evaluation methods and the need for approaches that better capture human reasoning in Vision & Language tasks.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(LVLM)は画像とテキストの両方を処理し、画像キャプションや記述生成などのマルチモーダルタスクに優れる。
しかし、これらのモデルは事実コンテンツの生成に優れているが、同じ画像上の視点を反映するテキストを生成・評価する能力は、文脈によっては十分に解明されていない。
IRR: Image Review Rankは,批判的レビューテキストを多視点から評価するための新しい評価フレームワークである。
IRRは、その判断が人間の解釈とどの程度密接に一致しているかを測定することによってLVLMを評価する。
我々は15のカテゴリの画像のデータセットを用いて評価し、それぞれに5つの批評家レビューテキストと、英語と日本語の注釈付きランキングがあり、合計2000以上のデータインスタンスがある。
データセットはhttps://hf.co/datasets/naist-nlp/Wiki-ImageReview1.0で公開されている。
その結果、LVLMは言語間で一貫した性能を示したが、人間のアノテーションとの相関は不十分であり、さらなる進歩の必要性を浮き彫りにした。
これらの知見は、現在の評価手法の限界と、視覚・言語タスクにおける人間の推論をよりよく捉えるためのアプローチの必要性を浮き彫りにしている。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora [19.02834713111249]
Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2021-05-11T12:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。