論文の概要: Taxonomy-Aware Evaluation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.05457v1
- Date: Mon, 07 Apr 2025 19:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:07.834290
- Title: Taxonomy-Aware Evaluation of Vision-Language Models
- Title(参考訳): 分類学による視覚・言語モデルの評価
- Authors: Vésteinn Snæbjarnarson, Kevin Du, Niklas Stoehr, Serge Belongie, Ryan Cotterell, Nico Lang, Stella Frank,
- Abstract要約: 本稿では,視覚言語モデルから生成されたような制約のないテキスト予測を分類学に対して評価するためのフレームワークを提案する。
具体的には,分類学における予測の正しさと特異性を評価するために,階層的精度とリコール対策を用いることを提案する。
- 参考スコア(独自算出の注目度): 48.285819827561625
- License:
- Abstract: When a vision-language model (VLM) is prompted to identify an entity depicted in an image, it may answer 'I see a conifer,' rather than the specific label 'norway spruce'. This raises two issues for evaluation: First, the unconstrained generated text needs to be mapped to the evaluation label space (i.e., 'conifer'). Second, a useful classification measure should give partial credit to less-specific, but not incorrect, answers ('norway spruce' being a type of 'conifer'). To meet these requirements, we propose a framework for evaluating unconstrained text predictions, such as those generated from a vision-language model, against a taxonomy. Specifically, we propose the use of hierarchical precision and recall measures to assess the level of correctness and specificity of predictions with regard to a taxonomy. Experimentally, we first show that existing text similarity measures do not capture taxonomic similarity well. We then develop and compare different methods to map textual VLM predictions onto a taxonomy. This allows us to compute hierarchical similarity measures between the generated text and the ground truth labels. Finally, we analyze modern VLMs on fine-grained visual classification tasks based on our proposed taxonomic evaluation scheme.
- Abstract(参考訳): 視覚言語モデル(VLM)が画像に描かれた実体を識別するよう促されると、特定のラベルである「ノーウェイ・スプルース」よりも「私は針葉樹を見る」と答えることがある。
まず、制約のない生成されたテキストを評価ラベル空間(すなわち 'conifer')にマッピングする必要がある。
第二に、有用な分類尺度は、偏見的でないが誤った答え("norway spruce"は"conifer"の一種である)に部分的な信用を与えるべきである。
これらの要件を満たすために、視覚言語モデルから生成されたような制約のないテキスト予測を分類学に対して評価する枠組みを提案する。
具体的には,分類学における予測の正しさと特異性を評価するために,階層的精度とリコール対策を用いることを提案する。
実験により,既存のテキスト類似度尺度は分類学的類似度をよく捉えていないことが明らかとなった。
次に,テキストによるVLM予測を分類学にマッピングするための異なる手法を開発し,比較する。
これにより、生成したテキストと基底真理ラベルとの間の階層的類似度を計算できる。
最後に,提案した分類学的評価手法に基づいて,視覚的細粒度分類タスクに基づく最新のVLMを分析した。
関連論文リスト
- A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - An Explainable Model-Agnostic Algorithm for CNN-based Biometrics
Verification [55.28171619580959]
本稿では,生体認証環境下でのLIME(Local Interpretable Model-Agnostic Explanations)AI手法の適用について述べる。
論文 参考訳(メタデータ) (2023-07-25T11:51:14Z) - Analyzing Text Representations by Measuring Task Alignment [2.198430261120653]
階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験は、タスクアライメントが与えられた表現の分類性能を説明することができることを示すことによって、我々の仮説を検証する。
論文 参考訳(メタデータ) (2023-05-31T11:20:48Z) - A Multi-Grained Self-Interpretable Symbolic-Neural Model For
Single/Multi-Labeled Text Classification [29.075766631810595]
本稿では,テキストのクラスラベルを選挙区木から明示的に予測するシンボリック・ニューラルモデルを提案する。
構造化言語モデルが自己教師型で選挙区木を予測することを学ぶと、訓練データとして、原文と文レベルのラベルしか必要としない。
実験により,下流タスクにおける予測精度が向上できることが実証された。
論文 参考訳(メタデータ) (2023-03-06T03:25:43Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。