論文の概要: VCRScore: Image captioning metric based on V\&L Transformers, CLIP, and precision-recall
- arxiv url: http://arxiv.org/abs/2501.09155v1
- Date: Wed, 15 Jan 2025 21:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:40.638355
- Title: VCRScore: Image captioning metric based on V\&L Transformers, CLIP, and precision-recall
- Title(参考訳): VCRScore:V\&L変換器、CLIP、高精度リコールに基づく画像キャプションメトリック
- Authors: Guillermo Ruiz, Tania Ramírez, Daniela Moctezuma,
- Abstract要約: 本研究では,画像キャプション問題に対する新しい評価基準を提案する。
人間のラベル付きデータセットを生成して、キャプションが画像の内容とどの程度相関しているかを評価する。
優れた結果も見出され、興味深い洞察が提示され、議論された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Image captioning has become an essential Vision & Language research task. It is about predicting the most accurate caption given a specific image or video. The research community has achieved impressive results by continuously proposing new models and approaches to improve the overall model's performance. Nevertheless, despite increasing proposals, the performance metrics used to measure their advances have remained practically untouched through the years. A probe of that, nowadays metrics like BLEU, METEOR, CIDEr, and ROUGE are still very used, aside from more sophisticated metrics such as BertScore and ClipScore. Hence, it is essential to adjust how are measure the advances, limitations, and scopes of the new image captioning proposals, as well as to adapt new metrics to these new advanced image captioning approaches. This work proposes a new evaluation metric for the image captioning problem. To do that, first, it was generated a human-labeled dataset to assess to which degree the captions correlate with the image's content. Taking these human scores as ground truth, we propose a new metric, and compare it with several well-known metrics, from classical to newer ones. Outperformed results were also found, and interesting insights were presented and discussed.
- Abstract(参考訳): イメージキャプションはビジョン・アンド・ランゲージの研究課題となっている。
特定の画像やビデオから最も正確なキャプションを予測することです。
研究コミュニティは、モデル全体のパフォーマンスを改善するために、新しいモデルとアプローチを継続的に提案することで、印象的な成果を上げています。
それでも、提案が増えているにもかかわらず、彼らの進歩を測定するために使われたパフォーマンス指標は、長年にわたって事実上触れられていない。
BLEU、METEOR、CIDEr、ROUGEといった最近のメトリクスは、BertScoreやClipScoreといったより高度なメトリクスを除いて、依然として非常によく使われている。
したがって、新しい画像キャプションの提案の進歩、制限、スコープをいかに測定するかを調整し、新しい高度な画像キャプションアプローチに新しいメトリクスを適用することが不可欠である。
本研究では,画像キャプション問題に対する新しい評価基準を提案する。
まず、人間のラベル付きデータセットを生成し、キャプションが画像の内容とどの程度相関しているかを評価する。
これらのスコアを基礎的真実として、我々は新しいメトリクスを提案し、それを古典的から新しいメトリクスまで、いくつかのよく知られたメトリクスと比較する。
優れた結果も見出され、興味深い洞察が提示され、議論された。
関連論文リスト
- Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy and Novel Ensemble Method [35.71703501731081]
本稿では,70以上の画像キャプション指標の初回調査と分類について紹介する。
提案されたメトリクスの多様性にもかかわらず、ほとんどの研究は5つの人気のあるメトリクスに頼っている。
本研究では,人間の判断と最も高い相関性を示す評価手法のアンサンブルであるEnsembEvalを提案する。
論文 参考訳(メタデータ) (2024-08-09T07:31:06Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Are metrics measuring what they should? An evaluation of image
captioning task metrics [0.21301560294088315]
画像キャプション(Image Captioning)は、シーン内のオブジェクトとそれらの関係を使って画像の内容を記述するための、現在の研究課題である。
この課題に対処するためには、人工視覚と自然言語処理という2つの重要な研究領域が使用される。
筆者らは,MS COCOデータセットを用いて,複数種類の画像キャプション指標の評価と,それらの比較を行った。
論文 参考訳(メタデータ) (2022-07-04T21:51:47Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - UMIC: An Unreferenced Metric for Image Captioning via Contrastive
Learning [39.40274917797253]
本稿では,新しいメトリクスUMIC,Unreferenced Metric for Image Captioningを紹介する。
ビジョン・アンド・ランゲージ BERT に基づいてUMIC を訓練し、対照的な学習を通して否定的なキャプションを識別する。
また,画像キャプションの指標について,前回のベンチマークデータセットの問題点を考察し,生成したキャプションに人間のアノテーションの新たなコレクションを導入する。
論文 参考訳(メタデータ) (2021-06-26T13:27:14Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。