論文の概要: Surprisal reveals diversity gaps in image captioning and different scorers change the story
- arxiv url: http://arxiv.org/abs/2511.04754v1
- Date: Thu, 06 Nov 2025 19:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.56411
- Title: Surprisal reveals diversity gaps in image captioning and different scorers change the story
- Title(参考訳): サプライサルが画像キャプションにおける多様性のギャップを明らかにし、異なるスコアラーがストーリーを変える
- Authors: Nikolai Ilinykh, Simon Dobnik,
- Abstract要約: 画像キャプションにおける言語的多様性の定量化について検討した。
MSCOCO テストセットでは、5つの最先端の視覚言語 LLM とヒトのキャプションとの比較を行った。
- 参考スコア(独自算出の注目度): 5.213778368155992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We quantify linguistic diversity in image captioning with surprisal variance - the spread of token-level negative log-probabilities within a caption set. On the MSCOCO test set, we compare five state-of-the-art vision-and-language LLMs, decoded with greedy and nucleus sampling, to human captions. Measured with a caption-trained n-gram LM, humans display roughly twice the surprisal variance of models, but rescoring the same captions with a general-language model reverses the pattern. Our analysis introduces the surprisal-based diversity metric for image captioning. We show that relying on a single scorer can completely invert conclusions, thus, robust diversity evaluation must report surprisal under several scorers.
- Abstract(参考訳): 画像キャプションにおける言語的多様性を,サブプライザルのばらつきとともに定量化し,キャプションセット内でトークンレベルの負の対数確率の拡散を図った。
MSCOCO テストセットでは、5つの最先端の視覚言語 LLM とヒトのキャプションとの比較を行った。
キャプションを訓練したn-gram LMで測定すると、人間はモデルのおよそ2倍の確率差を示すが、一般的なモデルで同じキャプションを再現することはパターンを逆転させる。
本分析では,画像キャプションにおける主観的多様性指標について紹介する。
一つのスコアラーを頼りにすれば、完全に結論を覆すことができるので、頑健な多様性評価は、複数のスコアラーの下では副次的に報告しなければならない。
関連論文リスト
- Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts [107.32683485639654]
テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
論文 参考訳(メタデータ) (2024-03-17T05:05:11Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Analysis of diversity-accuracy tradeoff in image captioning [15.735086091894365]
低温と組み合わせた単純復号法は,多種多様な精度のキャプションセットを生成するための競争的かつ高速な手法であることを示す。
本稿では,字幕集合の精度と多様性を1つの値で評価するための新しい指標AllSPICEを提案する。
論文 参考訳(メタデータ) (2020-02-27T00:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。