論文の概要: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning
- arxiv url: http://arxiv.org/abs/2303.08389v1
- Date: Wed, 15 Mar 2023 06:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:48:00.789432
- Title: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning
- Title(参考訳): PR-MCS:多言語画像キャプションのための摂動ロバストメトリック
- Authors: Yongil Kim, Yerin Hwang, Hyeongu Yun, Seunghyun Yoon, Trung Bui, and
Kyomin Jung
- Abstract要約: Perturbation Robust Multi-Lingual CLIPScore(PR-MCS)は、複数の言語に適用可能な新しい参照なし画像キャプションメトリクスである。
PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捉える上で、ベースラインの指標を著しく上回っている。
- 参考スコア(独自算出の注目度): 30.150484615377497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vulnerability to lexical perturbation is a critical weakness of automatic
evaluation metrics for image captioning. This paper proposes Perturbation
Robust Multi-Lingual CLIPScore(PR-MCS), which exhibits robustness to such
perturbations, as a novel reference-free image captioning metric applicable to
multiple languages. To achieve perturbation robustness, we fine-tune the text
encoder of CLIP with our language-agnostic method to distinguish the perturbed
text from the original text. To verify the robustness of PR-MCS, we introduce a
new fine-grained evaluation dataset consisting of detailed captions, critical
objects, and the relationships between the objects for 3, 000 images in five
languages. In our experiments, PR-MCS significantly outperforms baseline
metrics in capturing lexical noise of all various perturbation types in all
five languages, proving that PR-MCS is highly robust to lexical perturbations.
- Abstract(参考訳): 語彙的摂動に対する脆弱性は、画像キャプションの自動評価指標の重大な弱点である。
本稿では,複数の言語に適用可能な新しい参照フリー画像キャプション指標として,このような摂動に対する堅牢性を示す摂動ロバスト多言語CLIPScore(PR-MCS)を提案する。
摂動ロバスト性を達成するために,CLIPのテキストエンコーダを言語に依存しない方法で微調整し,乱れたテキストと元のテキストを区別する。
PR-MCSのロバスト性を検証するために, 詳細なキャプション, クリティカルオブジェクト, および5言語で3, 000の画像の関連性からなる, きめ細かな評価データセットを提案する。
実験の結果,PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捕捉する上で,ベースラインの指標よりも有意に優れており,PR-MCSは語彙摂動に対して非常に堅牢であることがわかった。
関連論文リスト
- Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - An Examination of the Robustness of Reference-Free Image Captioning
Evaluation Metrics [6.137805050050414]
CLIPScore,UMIC,PAC-Sの2つのキャプションを高い語彙重なり合いで区別する必要があるが,意味が全く異なるシナリオで評価した。
以上の結果から,CLIPScore,UMIC,PAC-Sと高い相関がみられた。
論文 参考訳(メタデータ) (2023-05-24T10:36:12Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。