論文の概要: VCRScore: Image captioning metric based on V\&L Transformers, CLIP, and precision-recall
- arxiv url: http://arxiv.org/abs/2501.09155v2
- Date: Mon, 27 Jan 2025 16:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 15:53:02.61585
- Title: VCRScore: Image captioning metric based on V\&L Transformers, CLIP, and precision-recall
- Title(参考訳): VCRScore:V\&L変換器、CLIP、高精度リコールに基づく画像キャプションメトリック
- Authors: Guillermo Ruiz, Tania Ramírez, Daniela Moctezuma,
- Abstract要約: 本研究では,画像キャプション問題に対する新しい評価基準を提案する。
人間のラベル付きデータセットを生成して、キャプションが画像の内容とどの程度相関しているかを評価する。
優れた結果も見出され、興味深い洞察が提示され、議論された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning has become an essential Vision & Language research task. It is about predicting the most accurate caption given a specific image or video. The research community has achieved impressive results by continuously proposing new models and approaches to improve the overall model's performance. Nevertheless, despite increasing proposals, the performance metrics used to measure their advances have remained practically untouched through the years. A probe of that, nowadays metrics like BLEU, METEOR, CIDEr, and ROUGE are still very used, aside from more sophisticated metrics such as BertScore and ClipScore. Hence, it is essential to adjust how are measure the advances, limitations, and scopes of the new image captioning proposals, as well as to adapt new metrics to these new advanced image captioning approaches. This work proposes a new evaluation metric for the image captioning problem. To do that, first, it was generated a human-labeled dataset to assess to which degree the captions correlate with the image's content. Taking these human scores as ground truth, we propose a new metric, and compare it with several well-known metrics, from classical to newer ones. Outperformed results were also found, and interesting insights were presented and discussed.
- Abstract(参考訳): イメージキャプションはビジョン・アンド・ランゲージの研究課題となっている。
特定の画像やビデオから最も正確なキャプションを予測することです。
研究コミュニティは、モデル全体のパフォーマンスを改善するために、新しいモデルとアプローチを継続的に提案することで、印象的な成果を上げています。
それでも、提案が増えているにもかかわらず、彼らの進歩を測定するために使われたパフォーマンス指標は、長年にわたって事実上触れられていない。
BLEU、METEOR、CIDEr、ROUGEといった最近のメトリクスは、BertScoreやClipScoreといったより高度なメトリクスを除いて、依然として非常によく使われている。
したがって、新しい画像キャプションの提案の進歩、制限、スコープをいかに測定するかを調整し、新しい高度な画像キャプションアプローチに新しいメトリクスを適用することが不可欠である。
本研究では,画像キャプション問題に対する新しい評価基準を提案する。
まず、人間のラベル付きデータセットを生成し、キャプションが画像の内容とどの程度相関しているかを評価する。
これらのスコアを基礎的真実として、我々は新しいメトリクスを提案し、それを古典的から新しいメトリクスまで、いくつかのよく知られたメトリクスと比較する。
優れた結果も見出され、興味深い洞察が提示され、議論された。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis [35.71703501731081]
本稿では,70以上の画像キャプション指標の初回調査と分類について,数百の論文で紹介する。
提案された指標の多様性にもかかわらず、ほとんどの研究は、人間の評価と弱い相関を示す5つの一般的な指標に頼っている。
論文 参考訳(メタデータ) (2024-08-09T07:31:06Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Are metrics measuring what they should? An evaluation of image
captioning task metrics [0.21301560294088315]
画像キャプション(Image Captioning)は、シーン内のオブジェクトとそれらの関係を使って画像の内容を記述するための、現在の研究課題である。
この課題に対処するためには、人工視覚と自然言語処理という2つの重要な研究領域が使用される。
筆者らは,MS COCOデータセットを用いて,複数種類の画像キャプション指標の評価と,それらの比較を行った。
論文 参考訳(メタデータ) (2022-07-04T21:51:47Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - UMIC: An Unreferenced Metric for Image Captioning via Contrastive
Learning [39.40274917797253]
本稿では,新しいメトリクスUMIC,Unreferenced Metric for Image Captioningを紹介する。
ビジョン・アンド・ランゲージ BERT に基づいてUMIC を訓練し、対照的な学習を通して否定的なキャプションを識別する。
また,画像キャプションの指標について,前回のベンチマークデータセットの問題点を考察し,生成したキャプションに人間のアノテーションの新たなコレクションを導入する。
論文 参考訳(メタデータ) (2021-06-26T13:27:14Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。