論文の概要: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning
- arxiv url: http://arxiv.org/abs/2303.08389v1
- Date: Wed, 15 Mar 2023 06:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:48:00.789432
- Title: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning
- Title(参考訳): PR-MCS:多言語画像キャプションのための摂動ロバストメトリック
- Authors: Yongil Kim, Yerin Hwang, Hyeongu Yun, Seunghyun Yoon, Trung Bui, and
Kyomin Jung
- Abstract要約: Perturbation Robust Multi-Lingual CLIPScore(PR-MCS)は、複数の言語に適用可能な新しい参照なし画像キャプションメトリクスである。
PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捉える上で、ベースラインの指標を著しく上回っている。
- 参考スコア(独自算出の注目度): 30.150484615377497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vulnerability to lexical perturbation is a critical weakness of automatic
evaluation metrics for image captioning. This paper proposes Perturbation
Robust Multi-Lingual CLIPScore(PR-MCS), which exhibits robustness to such
perturbations, as a novel reference-free image captioning metric applicable to
multiple languages. To achieve perturbation robustness, we fine-tune the text
encoder of CLIP with our language-agnostic method to distinguish the perturbed
text from the original text. To verify the robustness of PR-MCS, we introduce a
new fine-grained evaluation dataset consisting of detailed captions, critical
objects, and the relationships between the objects for 3, 000 images in five
languages. In our experiments, PR-MCS significantly outperforms baseline
metrics in capturing lexical noise of all various perturbation types in all
five languages, proving that PR-MCS is highly robust to lexical perturbations.
- Abstract(参考訳): 語彙的摂動に対する脆弱性は、画像キャプションの自動評価指標の重大な弱点である。
本稿では,複数の言語に適用可能な新しい参照フリー画像キャプション指標として,このような摂動に対する堅牢性を示す摂動ロバスト多言語CLIPScore(PR-MCS)を提案する。
摂動ロバスト性を達成するために,CLIPのテキストエンコーダを言語に依存しない方法で微調整し,乱れたテキストと元のテキストを区別する。
PR-MCSのロバスト性を検証するために, 詳細なキャプション, クリティカルオブジェクト, および5言語で3, 000の画像の関連性からなる, きめ細かな評価データセットを提案する。
実験の結果,PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捕捉する上で,ベースラインの指標よりも有意に優れており,PR-MCSは語彙摂動に対して非常に堅牢であることがわかった。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics [6.137805050050414]
CLIPScore,UMIC,PAC-Sの2つのキャプションを高い語彙重なり合いで区別する必要があるが,意味が全く異なるシナリオで評価した。
以上の結果から,CLIPScore,UMIC,PAC-Sと高い相関がみられた。
論文 参考訳(メタデータ) (2023-05-24T10:36:12Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。