論文の概要: Intrinsic Image Captioning Evaluation
- arxiv url: http://arxiv.org/abs/2012.07333v1
- Date: Mon, 14 Dec 2020 08:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:31:23.903888
- Title: Intrinsic Image Captioning Evaluation
- Title(参考訳): 固有画像のキャプション評価
- Authors: Chao Zeng, Sam Kwong
- Abstract要約: I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
- 参考スコア(独自算出の注目度): 53.51379676690971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image captioning task is about to generate suitable descriptions from
images. For this task there can be several challenges such as accuracy, fluency
and diversity. However there are few metrics that can cover all these
properties while evaluating results of captioning models.In this paper we first
conduct a comprehensive investigation on contemporary metrics. Motivated by the
auto-encoder mechanism and the research advances of word embeddings we propose
a learning based metrics for image captioning, which we call Intrinsic Image
Captioning Evaluation(I2CE). We select several state-of-the-art image
captioning models and test their performances on MS COCO dataset with respects
to both contemporary metrics and the proposed I2CE. Experiment results show
that our proposed method can keep robust performance and give more flexible
scores to candidate captions when encountered with semantic similar expression
or less aligned semantics. On this concern the proposed metric could serve as a
novel indicator on the intrinsic information between captions, which may be
complementary to the existing ones.
- Abstract(参考訳): 画像キャプションタスクは、画像から適切な記述を生成する。
このタスクには、正確性、流動性、多様性など、いくつかの課題がある。
しかし、キャプションモデルの結果を評価しながら、これらの特性をすべてカバーできるメトリクスは少なく、本稿では、まず、現代のメトリクスを包括的に調査する。
自動エンコーダ機構と単語埋め込みの研究の進展に動機づけられ,画像キャプションのための学習ベースのメトリクスを提案し,本質的画像キャプション評価(i2ce)と呼ぶ。
最新の画像キャプションモデルをいくつか選択し,同時代の指標と提案したI2CEに関して,MS COCOデータセット上でその性能を検証した。
実験結果から,提案手法は,セマンティックな類似表現やセマンティックスに遭遇した場合に,頑健な性能を維持し,より柔軟なスコアを候補キャプションに与えることができることがわかった。
この点に関して、提案された指標は、既存の指標と相補的なキャプション間の固有情報に関する新しい指標として機能する可能性がある。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。