論文の概要: Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder
- arxiv url: http://arxiv.org/abs/2106.15312v1
- Date: Tue, 29 Jun 2021 12:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:25:29.445012
- Title: Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder
- Title(参考訳): 固有オートエンコーダを用いた画像キャプション評価のためのコントラスト意味的類似性学習
- Authors: Chao Zeng, Tiesong Zhao, Sam Kwong
- Abstract要約: 自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
- 参考スコア(独自算出の注目度): 52.42057181754076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically evaluating the quality of image captions can be very
challenging since human language is quite flexible that there can be various
expressions for the same meaning. Most of the current captioning metrics rely
on token level matching between candidate caption and the ground truth label
sentences. It usually neglects the sentence-level information. Motivated by the
auto-encoder mechanism and contrastive representation learning advances, we
propose a learning-based metric for image captioning, which we call Intrinsic
Image Captioning Evaluation($I^2CE$). We develop three progressive model
structures to learn the sentence level representations--single branch model,
dual branches model, and triple branches model. Our empirical tests show that
$I^2CE$ trained with dual branches structure achieves better consistency with
human judgments to contemporary image captioning evaluation metrics.
Furthermore, We select several state-of-the-art image captioning models and
test their performances on the MS COCO dataset concerning both contemporary
metrics and the proposed $I^2CE$. Experiment results show that our proposed
method can align well with the scores generated from other contemporary
metrics. On this concern, the proposed metric could serve as a novel indicator
of the intrinsic information between captions, which may be complementary to
the existing ones.
- Abstract(参考訳): 画像キャプションの品質を自動評価することは、人間の言語が柔軟であるため、同じ意味の様々な表現が存在するため、非常に難しい。
現在のキャプション指標のほとんどは、候補キャプションと接地真理ラベル文のトークンレベルマッチングに依存している。
通常は文レベルの情報を無視する。
自己エンコーダ機構と対比表現学習の進歩に動機づけられた画像キャプションのための学習ベースメトリクスを提案し,本質的画像キャプション評価($i^2ce$)と呼ぶ。
文レベルの表現を学習するために,3つのプログレッシブなモデル構造を開発する-単一分岐モデル,二重分岐モデル,三重分岐モデル。
両枝構造で訓練した$I^2CE$は,現代の画像キャプション評価指標よりも,人間の判断との整合性が良好であることを示す。
さらに,同時代の指標と提案した$I^2CE$に関して,いくつかの最先端画像キャプションモデルを選択し,MS COCOデータセット上でその性能を検証した。
実験の結果,提案手法は他の指標から得られたスコアとよく一致することがわかった。
この点に関して、提案した指標は、既存の指標と相補的なキャプション間の固有情報の新たな指標として機能する可能性がある。
関連論文リスト
- A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。
出力の出力を評価するための最初の学習的生成指標を示す。
提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文 参考訳(メタデータ) (2021-09-11T13:43:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。