論文の概要: Evaluating Image Caption via Cycle-consistent Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.03567v1
- Date: Tue, 07 Jan 2025 06:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:35.481300
- Title: Evaluating Image Caption via Cycle-consistent Text-to-Image Generation
- Title(参考訳): サイクル一貫性のあるテキスト・ツー・イメージ生成による画像キャプションの評価
- Authors: Tianyu Cui, Jinbin Bai, Guohua Wang, Qingguo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Ye Shi,
- Abstract要約: 画像キャプションモデルのための参照不要自動評価指標であるCAMScoreを提案する。
上記のモダリティギャップを回避するため、CAMScoreはテキスト・ツー・イメージ・モデルを用いてキャプションから画像を生成し、生成した画像を元の画像に対して評価する。
実験結果から,CAMScoreは既存の基準ベースおよび基準フリー指標と比較して,人間の判断との相関が良好であることがわかった。
- 参考スコア(独自算出の注目度): 24.455344211552692
- License:
- Abstract: Evaluating image captions typically relies on reference captions, which are costly to obtain and exhibit significant diversity and subjectivity. While reference-free evaluation metrics have been proposed, most focus on cross-modal evaluation between captions and images. Recent research has revealed that the modality gap generally exists in the representation of contrastive learning-based multi-modal systems, undermining the reliability of cross-modality metrics like CLIPScore. In this paper, we propose CAMScore, a cyclic reference-free automatic evaluation metric for image captioning models. To circumvent the aforementioned modality gap, CAMScore utilizes a text-to-image model to generate images from captions and subsequently evaluates these generated images against the original images. Furthermore, to provide fine-grained information for a more comprehensive evaluation, we design a three-level evaluation framework for CAMScore that encompasses pixel-level, semantic-level, and objective-level perspectives. Extensive experiment results across multiple benchmark datasets show that CAMScore achieves a superior correlation with human judgments compared to existing reference-based and reference-free metrics, demonstrating the effectiveness of the framework.
- Abstract(参考訳): 画像キャプションの評価は典型的には参照キャプションに依存しており、かなりの多様性と主観性を得るのに費用がかかる。
基準のない評価指標が提案されているが、ほとんどの場合、キャプションと画像の相互モーダル評価に焦点が当てられている。
近年の研究では、CLIPScoreのようなクロスモーダルメトリクスの信頼性を損なう、対照的な学習ベースのマルチモーダルシステムの表現に、モダリティギャップが一般的に存在していることが判明している。
本稿では,画像キャプションモデルのための循環参照フリー自動評価指標であるCAMScoreを提案する。
上記のモダリティギャップを回避するため、CAMScoreはテキスト・ツー・イメージ・モデルを用いてキャプションから画像を生成し、生成した画像を元の画像に対して評価する。
さらに,より包括的評価を行うための詳細な情報を提供するために,画素レベル,セマンティックレベル,客観的レベルの視点を含むCAMScoreの3レベル評価フレームワークを設計する。
複数のベンチマークデータセットにまたがる大規模な実験結果から、CAMScoreは、既存の基準ベースおよび基準フリーメトリクスと比較して、人間の判断と優れた相関を達成し、フレームワークの有効性を実証している。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model [5.330266804358638]
画像キャプション評価指標に説明可能性を導入するための説明自由度指標であるFLEURを提案する。
大規模なマルチモーダルモデルを利用することで、FLEURは参照キャプションを必要とせずに画像に対するキャプションを評価することができる。
FLEURは、画像キャプション評価ベンチマークにおいて、人間の判断と高い相関を達成している。
論文 参考訳(メタデータ) (2024-06-10T03:57:39Z) - CrossScore: Towards Multi-View Image Evaluation and Scoring [24.853612457257697]
相互参照画像品質評価法は画像評価景観のギャップを埋める。
本手法は,地上の真理参照を必要とせず,精度の高い画像品質評価を可能にする。
論文 参考訳(メタデータ) (2024-04-22T17:59:36Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。