論文の概要: Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis
- arxiv url: http://arxiv.org/abs/2408.04909v2
- Date: Sat, 01 Mar 2025 12:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:12:16.090922
- Title: Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis
- Title(参考訳): 画像キャプション評価の景観調査:包括的分類,トレンド,メトリクス分析
- Authors: Uri Berger, Gabriel Stanovsky, Omri Abend, Lea Frermann,
- Abstract要約: 本稿では,70以上の画像キャプション指標の初回調査と分類について,数百の論文で紹介する。
提案された指標の多様性にもかかわらず、ほとんどの研究は、人間の評価と弱い相関を示す5つの一般的な指標に頼っている。
- 参考スコア(独自算出の注目度): 35.71703501731081
- License:
- Abstract: The task of image captioning has recently been gaining popularity, and with it the complex task of evaluating the quality of image captioning models. In this work, we present the first survey and taxonomy of over 70 different image captioning metrics and their usage in hundreds of papers, specifically designed to help users select the most suitable metric for their needs. We find that despite the diversity of proposed metrics, the vast majority of studies rely on only five popular metrics, which we show to be weakly correlated with human ratings. We hypothesize that combining a diverse set of metrics can enhance correlation with human ratings. As an initial step, we demonstrate that a linear regression-based ensemble method, which we call EnsembEval, trained on one human ratings dataset, achieves improved correlation across five additional datasets, showing there is a lot of room for improvement by leveraging a diverse set of metrics.
- Abstract(参考訳): 近年,画像キャプションのタスクが普及し,画像キャプションモデルの質を評価する複雑なタスクとなっている。
本研究は,70以上の画像キャプションの指標とその使用状況に関する最初の調査と分類を,ユーザがニーズに対して最も適した指標を選択するのを支援するために,数百の論文で紹介する。
提案された指標の多様性にもかかわらず、ほとんどの研究は5つの一般的な指標のみに依存しており、人間の評価と弱い相関があることが示されています。
多様な指標を組み合わせることで、人間の評価との相関性を高めることができるという仮説を立てる。
最初のステップとして、1人のレーティングデータセットに基づいてトレーニングされたEnsembEvalと呼ばれる線形回帰ベースのアンサンブル手法が、5つの追加データセット間で改善された相関を実現し、多様なメトリクスのセットを活用することで改善の余地があることを実証した。
関連論文リスト
- VCRScore: Image captioning metric based on V\&L Transformers, CLIP, and precision-recall [0.0]
本研究では,画像キャプション問題に対する新しい評価基準を提案する。
人間のラベル付きデータセットを生成して、キャプションが画像の内容とどの程度相関しているかを評価する。
優れた結果も見出され、興味深い洞察が提示され、議論された。
論文 参考訳(メタデータ) (2025-01-15T21:14:36Z) - Evaluating authenticity and quality of image captions via sentiment and semantic analyses [0.0]
ディープラーニングは、自然言語処理やコンピュータビジョンといったタスクのための大量のラベル付きデータに大きく依存している。
画像からテキストへのパイプラインや画像へのパイプラインでは、意見(知覚)は人為的な画像キャプションからモデルによって不注意に学習される。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T23:50:23Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Are metrics measuring what they should? An evaluation of image
captioning task metrics [0.21301560294088315]
画像キャプション(Image Captioning)は、シーン内のオブジェクトとそれらの関係を使って画像の内容を記述するための、現在の研究課題である。
この課題に対処するためには、人工視覚と自然言語処理という2つの重要な研究領域が使用される。
筆者らは,MS COCOデータセットを用いて,複数種類の画像キャプション指標の評価と,それらの比較を行った。
論文 参考訳(メタデータ) (2022-07-04T21:51:47Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。