論文の概要: Are metrics measuring what they should? An evaluation of image
captioning task metrics
- arxiv url: http://arxiv.org/abs/2207.01733v1
- Date: Mon, 4 Jul 2022 21:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:02:56.495359
- Title: Are metrics measuring what they should? An evaluation of image
captioning task metrics
- Title(参考訳): メトリクスは何を計測するか?
画像キャプションタスクメトリクスの評価
- Authors: Oth\'on Gonz\'alez-Ch\'avez, Guillermo Ruiz, Daniela Moctezuma, Tania
A. Ramirez-delReal
- Abstract要約: 画像キャプション(Image Captioning)は、シーン内のオブジェクトとそれらの関係を使って画像の内容を記述するための、現在の研究課題である。
この課題に対処するためには、人工視覚と自然言語処理という2つの重要な研究領域が使用される。
筆者らは,MS COCOデータセットを用いて,複数種類の画像キャプション指標の評価と,それらの比較を行った。
- 参考スコア(独自算出の注目度): 0.21301560294088315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Captioning is a current research task to describe the image content
using the objects and their relationships in the scene. To tackle this task,
two important research areas are used, artificial vision, and natural language
processing. In Image Captioning, as in any computational intelligence task, the
performance metrics are crucial for knowing how well (or bad) a method
performs. In recent years, it has been observed that classical metrics based on
n-grams are insufficient to capture the semantics and the critical meaning to
describe the content in an image. Looking to measure how well or not the set of
current and more recent metrics are doing, in this manuscript, we present an
evaluation of several kinds of Image Captioning metrics and a comparison
between them using the well-known MS COCO dataset. For this, we designed two
scenarios; 1) a set of artificially build captions with several quality, and 2)
a comparison of some state-of-the-art Image Captioning methods. We tried to
answer the questions: Are the current metrics helping to produce high quality
captions? How do actual metrics compare to each other? What are the metrics
really measuring?
- Abstract(参考訳): 画像キャプション(英: image captioning)は、映像の内容とそのシーンにおける関係を記述する現在の研究課題である。
この課題に取り組むために、人工視覚と自然言語処理という2つの重要な研究領域が使われている。
イメージキャプションでは、あらゆる計算知能タスクと同様に、パフォーマンスメトリクスは、メソッドがどれだけうまく(または悪く)いるかを知るのに不可欠である。
近年,n-gramに基づく古典的メトリクスは,画像中の内容を記述する意味や重要な意味を捉えるには不十分であることが観察されている。
本論文では,現在および最近の指標の集合がどの程度うまく行っているかを評価するために,複数の種類の画像キャプチャー計測値の評価を行い,その比較をMS COCOデータセットを用いて行った。
このために2つのシナリオをデザインしました
1) 品質の異なる人工的に構築されたキャプションのセット
2) 最先端画像キャプション手法の比較
現在のメトリクスは、高品質なキャプションの生成に役立ちますか?
実際のメトリクスはどのように比較されますか?
測定基準は何でしょう?
関連論文リスト
- InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Evaluating Automatically Generated Phoneme Captions for Images [44.20957732654963]
Image2Speechは画像の音声記述を生成する比較的新しいタスクである。
本稿では,この課題の評価について検討する。
BLEU4はImage2Speechタスクの現在ある最高のメトリックである。
論文 参考訳(メタデータ) (2020-07-31T09:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。