Fugu-MT 論文翻訳(概要): Transparent Human Evaluation for Image Captioning

論文の概要: Transparent Human Evaluation for Image Captioning

arxiv url: http://arxiv.org/abs/2111.08940v1
Date: Wed, 17 Nov 2021 07:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-18 19:45:19.846246
Title: Transparent Human Evaluation for Image Captioning
Title（参考訳）: 画像キャプションのための透明人間評価
Authors: Jungo Kasai, Keisuke Sakaguchi, Lavinia Dunagan, Jacob Morrison, Ronan Le Bras, Yejin Choi, Noah A. Smith
Abstract要約: 画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
参考スコア（独自算出の注目度）: 70.03979566548823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We establish a rubric-based human evaluation protocol for image captioning models. Our scoring rubrics and their definitions are carefully developed based on machine- and human-generated captions on the MSCOCO dataset. Each caption is evaluated along two main dimensions in a tradeoff (precision and recall) as well as other aspects that measure the text quality (fluency, conciseness, and inclusive language). Our evaluations demonstrate several critical problems of the current evaluation practice. Human-generated captions show substantially higher quality than machine-generated ones, especially in coverage of salient information (i.e., recall), while all automatic metrics say the opposite. Our rubric-based results reveal that CLIPScore, a recent metric that uses image features, better correlates with human judgments than conventional text-only metrics because it is more sensitive to recall. We hope that this work will promote a more transparent evaluation protocol for image captioning and its automatic metrics.
Abstract（参考訳）: 画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを確立する。 MSCOCOデータセット上の機械文と人文文文のキャプションに基づいて,評価結果とその定義を慎重に開発する。それぞれのキャプションは、トレードオフ(precision and recall)と、テキスト品質(fluency, conciseness, comprehensive language)を測定する他の側面の2つの主要な次元に沿って評価される。本評価は,現在の評価実践において,いくつかの重要な問題を示す。人間が生成したキャプションは、機械が生成するものよりもかなり高品質で、特に有意義な情報(つまりリコール)をカバーしている。画像特徴を用いた最近の測定値であるCLIPScoreは、リコールに敏感であるため、従来のテキストのみの計測値よりも人間の判断と相関する。この取り組みにより、画像キャプションとその自動計測のためのより透過的な評価プロトコルが促進されることを願っている。

関連論文リスト

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。 DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。 DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文参考訳（メタデータ） (2025-03-10T22:53:56Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文参考訳（メタデータ） (2024-02-28T01:29:36Z)
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文参考訳（メタデータ） (2023-08-16T17:26:47Z)
InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文参考訳（メタデータ） (2023-05-10T09:22:44Z)
COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。出力の出力を評価するための最初の学習的生成指標を示す。提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文参考訳（メタデータ） (2021-09-11T13:43:36Z)
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文参考訳（メタデータ） (2021-06-29T12:27:05Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。