論文の概要: Evaluating Automatically Generated Phoneme Captions for Images
- arxiv url: http://arxiv.org/abs/2007.15916v1
- Date: Fri, 31 Jul 2020 09:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 05:44:37.563776
- Title: Evaluating Automatically Generated Phoneme Captions for Images
- Title(参考訳): 画像の自動生成音素キャプションの評価
- Authors: Justin van der Hout, Zolt\'an D'Haese, Mark Hasegawa-Johnson, Odette
Scharenborg
- Abstract要約: Image2Speechは画像の音声記述を生成する比較的新しいタスクである。
本稿では,この課題の評価について検討する。
BLEU4はImage2Speechタスクの現在ある最高のメトリックである。
- 参考スコア(独自算出の注目度): 44.20957732654963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image2Speech is the relatively new task of generating a spoken description of
an image. This paper presents an investigation into the evaluation of this
task. For this, first an Image2Speech system was implemented which generates
image captions consisting of phoneme sequences. This system outperformed the
original Image2Speech system on the Flickr8k corpus. Subsequently, these
phoneme captions were converted into sentences of words. The captions were
rated by human evaluators for their goodness of describing the image. Finally,
several objective metric scores of the results were correlated with these human
ratings. Although BLEU4 does not perfectly correlate with human ratings, it
obtained the highest correlation among the investigated metrics, and is the
best currently existing metric for the Image2Speech task. Current metrics are
limited by the fact that they assume their input to be words. A more
appropriate metric for the Image2Speech task should assume its input to be
parts of words, i.e. phonemes, instead.
- Abstract(参考訳): Image2Speechは画像の音声記述を生成する比較的新しいタスクである。
本稿では,この課題の評価について検討する。
そこでまず,音素配列からなる画像キャプションを生成するImage2Speechシステムを開発した。
このシステムはFlickr8kコーパスでオリジナルのImage2Speechシステムより優れていた。
その後、これらの音素キャプションを文に変換する。
キャプションは人間の評価者によって画像の記述が優れているとして評価された。
最後に, 結果の客観的な測定値は, これらの評価値と相関した。
BLEU4は人間のレーティングと完全に相関しないが、調査された指標の中では最も高い相関関係を示しており、Image2Speechタスクの現在ある最高のメトリクスである。
現在の指標は、入力が単語であると仮定するという事実によって制限されている。
Image2Speechタスクのより適切なメトリックは、入力を単語の一部、すなわち音素の一部と仮定するべきである。
関連論文リスト
- InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Are metrics measuring what they should? An evaluation of image
captioning task metrics [0.21301560294088315]
画像キャプション(Image Captioning)は、シーン内のオブジェクトとそれらの関係を使って画像の内容を記述するための、現在の研究課題である。
この課題に対処するためには、人工視覚と自然言語処理という2つの重要な研究領域が使用される。
筆者らは,MS COCOデータセットを用いて,複数種類の画像キャプション指標の評価と,それらの比較を行った。
論文 参考訳(メタデータ) (2022-07-04T21:51:47Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Can Audio Captions Be Evaluated with Image Caption Metrics? [11.45508807551818]
本稿では, 類似性を捉える上で, センテンス-BERTの強みと, 誤り検出器を組み合わさって, 誤文を強靭性のためにペナルティ化する手法を提案する。
新たに確立されたベンチマークでは、FENSEが現在のメトリクスを14~25%の精度で上回っている。
論文 参考訳(メタデータ) (2021-10-10T02:34:40Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。