論文の概要: Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics
- arxiv url: http://arxiv.org/abs/2505.16180v1
- Date: Thu, 22 May 2025 03:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.014768
- Title: Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics
- Title(参考訳): Redemption Score:イメージセマンティクスと言語プラグマティクスを再評価しながら、イメージキャプションをランク付けする評価フレームワーク
- Authors: Ashim Dahal, Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi,
- Abstract要約: 償却スコア(英: Redemption Score)は、3つの相補的な信号を三角測量することによって画像キャプションをランク付けする新しいフレームワークである。
Flickr8kベンチマークで、Redemption ScoreはKendall-$tau$ 56.43を達成し、12の先行手法を上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating image captions requires cohesive assessment of both visual semantics and language pragmatics, which is often not entirely captured by most metrics. We introduce Redemption Score, a novel hybrid framework that ranks image captions by triangulating three complementary signals: (1) Mutual Information Divergence (MID) for global image-text distributional alignment, (2) DINO-based perceptual similarity of cycle-generated images for visual grounding, and (3) BERTScore for contextual text similarity against human references. A calibrated fusion of these signals allows Redemption Score to offer a more holistic assessment. On the Flickr8k benchmark, Redemption Score achieves a Kendall-$\tau$ of 56.43, outperforming twelve prior methods and demonstrating superior correlation with human judgments without requiring task-specific training. Our framework provides a more robust and nuanced evaluation by effectively redeeming image semantics and linguistic interpretability indicated by strong transfer of knowledge in the Conceptual Captions and MS COCO datasets.
- Abstract(参考訳): 画像キャプションを評価するには、視覚的意味論と言語プラグマティクスの両方の凝集的な評価が必要である。
筆者らは,(1)グローバルな画像テキスト配信アライメントのための相互情報分散(MID),(2)視覚的な接地のためのサイクル生成画像の知覚的類似性,(3)人間の参照に対する文脈的テキスト類似性のためのBERTScoreという3つの相補的な信号を三角測量することによって,画像キャプションをランク付けする新しいハイブリッドフレームワークであるRedemption Scoreを紹介した。
これらの信号の校正による融合により、Redemption Scoreはより総合的な評価を提供することができる。
Flickr8kのベンチマークでは、Redemption ScoreはKendall-$\tau$ 56.43を達成し、12の先行手法を上回り、タスク固有のトレーニングを必要とせず、人間の判断と優れた相関を示す。
本フレームワークは,概念的キャプションとMS COCOデータセットにおける知識の強い伝達によって示される画像意味論と言語的解釈性を効果的に再評価することにより,より堅牢でニュアンスな評価を提供する。
関連論文リスト
- Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Evaluating Image Caption via Cycle-consistent Text-to-Image Generation [24.455344211552692]
画像キャプションモデルのための参照不要自動評価指標であるCAMScoreを提案する。
上記のモダリティギャップを回避するため、CAMScoreはテキスト・ツー・イメージ・モデルを用いてキャプションから画像を生成し、生成した画像を元の画像に対して評価する。
実験結果から,CAMScoreは既存の基準ベースおよび基準フリー指標と比較して,人間の判断との相関が良好であることがわかった。
論文 参考訳(メタデータ) (2025-01-07T06:35:34Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。