論文の概要: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models
- arxiv url: http://arxiv.org/abs/2311.04192v1
- Date: Tue, 7 Nov 2023 18:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:18:48.748476
- Title: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures
for Image Captioning Models
- Title(参考訳): JaSPICE:画像キャプションモデルのための述語構造を用いた自動評価基準
- Authors: Yuiga Wada, Kanta Kaneda, Komei Sugiura
- Abstract要約: 本稿では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning studies heavily rely on automatic evaluation metrics such as
BLEU and METEOR. However, such n-gram-based metrics have been shown to
correlate poorly with human evaluation, leading to the proposal of alternative
metrics such as SPICE for English; however, no equivalent metrics have been
established for other languages. Therefore, in this study, we propose an
automatic evaluation metric called JaSPICE, which evaluates Japanese captions
based on scene graphs. The proposed method generates a scene graph from
dependencies and the predicate-argument structure, and extends the graph using
synonyms. We conducted experiments employing 10 image captioning models trained
on STAIR Captions and PFN-PIC and constructed the Shichimi dataset, which
contains 103,170 human evaluations. The results showed that our metric
outperformed the baseline metrics for the correlation coefficient with the
human evaluation.
- Abstract(参考訳): 画像キャプションの研究はBLEUやMETEORなどの自動評価指標に大きく依存している。
しかし、このようなn-gramベースのメトリクスは人間の評価と相関が低いことが示されており、英語のSPICEのような代替指標が提案されているが、他の言語では同等のメトリクスが確立されていない。
そこで本研究では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。
提案手法は,依存関係と述語構造からシーングラフを生成し,同義語を用いてグラフを拡張する。
実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。
その結果, 相関係数の基準値と人的評価値との相関係数を比較検討した。
関連論文リスト
- HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。
出力の出力を評価するための最初の学習的生成指標を示す。
提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文 参考訳(メタデータ) (2021-09-11T13:43:36Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。