Fugu-MT 論文翻訳(概要): PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning

論文の概要: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning

arxiv url: http://arxiv.org/abs/2303.08389v1
Date: Wed, 15 Mar 2023 06:37:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 14:48:00.789432
Title: PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning
Title（参考訳）: PR-MCS:多言語画像キャプションのための摂動ロバストメトリック
Authors: Yongil Kim, Yerin Hwang, Hyeongu Yun, Seunghyun Yoon, Trung Bui, and Kyomin Jung
Abstract要約: Perturbation Robust Multi-Lingual CLIPScore(PR-MCS)は、複数の言語に適用可能な新しい参照なし画像キャプションメトリクスである。 PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捉える上で、ベースラインの指標を著しく上回っている。
参考スコア（独自算出の注目度）: 30.150484615377497
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vulnerability to lexical perturbation is a critical weakness of automatic evaluation metrics for image captioning. This paper proposes Perturbation Robust Multi-Lingual CLIPScore(PR-MCS), which exhibits robustness to such perturbations, as a novel reference-free image captioning metric applicable to multiple languages. To achieve perturbation robustness, we fine-tune the text encoder of CLIP with our language-agnostic method to distinguish the perturbed text from the original text. To verify the robustness of PR-MCS, we introduce a new fine-grained evaluation dataset consisting of detailed captions, critical objects, and the relationships between the objects for 3, 000 images in five languages. In our experiments, PR-MCS significantly outperforms baseline metrics in capturing lexical noise of all various perturbation types in all five languages, proving that PR-MCS is highly robust to lexical perturbations.
Abstract（参考訳）: 語彙的摂動に対する脆弱性は、画像キャプションの自動評価指標の重大な弱点である。本稿では,複数の言語に適用可能な新しい参照フリー画像キャプション指標として,このような摂動に対する堅牢性を示す摂動ロバスト多言語CLIPScore(PR-MCS)を提案する。摂動ロバスト性を達成するために,CLIPのテキストエンコーダを言語に依存しない方法で微調整し,乱れたテキストと元のテキストを区別する。 PR-MCSのロバスト性を検証するために, 詳細なキャプション, クリティカルオブジェクト, および5言語で3, 000の画像の関連性からなる, きめ細かな評価データセットを提案する。実験の結果,PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捕捉する上で,ベースラインの指標よりも有意に優れており,PR-MCSは語彙摂動に対して非常に堅牢であることがわかった。

関連論文リスト

Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts [15.349894506969074]
我々は,多言語および多言語による米国レポート生成のための統一的なフレームワークを提案する。方法は、臓器部位や言語間で一貫性があり、臨床的に正確なテキスト生成を実現する。
論文参考訳（メタデータ） (2025-05-13T08:27:01Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Evaluating Robustness of LLMs in Question Answering on Multilingual Noisy OCR Data [17.20084584886653]
我々は,OCRによる雑音が多言語QAシステムの性能に与える影響を包括的に分析する。この分析を支援するために,多言語QAデータセットであるMultiOCR-QAを導入する。データセットは、OCRの異なるレベルと種類のOCRノイズを含む、OCRが編集した歴史文書からキュレートされる。次に、3つの主要なOCRエラータイプに着目し、異なるエラー条件下で、異なる最先端の大規模言語モデル(LLM)がどのように機能するかを評価する。
論文参考訳（メタデータ） (2025-02-24T02:16:37Z)
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文参考訳（メタデータ） (2024-12-20T18:05:22Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。 MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文参考訳（メタデータ） (2024-01-19T07:10:13Z)
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-01T15:54:55Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)
CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。 Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文参考訳（メタデータ） (2023-10-03T14:53:53Z)
An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics [6.137805050050414]
CLIPScore,UMIC,PAC-Sの2つのキャプションを高い語彙重なり合いで区別する必要があるが,意味が全く異なるシナリオで評価した。以上の結果から,CLIPScore,UMIC,PAC-Sと高い相関がみられた。
論文参考訳（メタデータ） (2023-05-24T10:36:12Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。