論文の概要: Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.13945v3
- Date: Wed, 23 Apr 2025 09:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.665366
- Title: Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
- Title(参考訳): メニューOCRの評価と翻訳:大規模視覚言語モデルにおける人間と自動評価のベンチマーク
- Authors: Zhanglin Wu, Tengfei Song, Ning Xie, Mengli Zhu, Weidong Zhang, Shuang Wu, Pengfei Li, Chong Li, Junhao Zhu, Hao Yang, Shiliang Sun,
- Abstract要約: 異文化間コミュニケーションにおけるメニュー翻訳の重要な役割を強調する特化評価フレームワークを提案する。
MOTBenchは、それぞれの料理を正確に認識し翻訳するLVLMと、その価格とメニュー上のユニットアイテム、そして正確な人間のアノテーションを必要とする。
我々のベンチマークは中国語と英語のメニューのコレクションで構成されており、複雑なレイアウト、さまざまなフォント、さまざまな言語にまたがる文化的に特定の要素、そして正確な人間のアノテーションが特徴である。
- 参考スコア(独自算出の注目度): 44.159383734605456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large vision-language models (LVLMs) has significantly propelled applications in document understanding, particularly in optical character recognition (OCR) and multilingual translation. However, current evaluations of LVLMs, like the widely used OCRBench, mainly focus on verifying the correctness of their short-text responses and long-text responses with simple layout, while the evaluation of their ability to understand long texts with complex layout design is highly significant but largely overlooked. In this paper, we propose Menu OCR and Translation Benchmark (MOTBench), a specialized evaluation framework emphasizing the pivotal role of menu translation in cross-cultural communication. MOTBench requires LVLMs to accurately recognize and translate each dish, along with its price and unit items on a menu, providing a comprehensive assessment of their visual understanding and language processing capabilities. Our benchmark is comprised of a collection of Chinese and English menus, characterized by intricate layouts, a variety of fonts, and culturally specific elements across different languages, along with precise human annotations. Experiments show that our automatic evaluation results are highly consistent with professional human evaluation. We evaluate a range of publicly available state-of-the-art LVLMs, and through analyzing their output to identify the strengths and weaknesses in their performance, offering valuable insights to guide future advancements in LVLM development. MOTBench is available at https://github.com/gitwzl/MOTBench.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の急速な進歩は、特に光学文字認識(OCR)や多言語翻訳において、文書理解において顕著な進歩をもたらした。
しかし、広く使われているOCRBenchと同様、LVLMの現在の評価は、単純なレイアウトで短文応答と長文応答の正当性を検証することに集中しているが、複雑なレイアウト設計で長文を理解する能力の評価は極めて重要であるが、概ね見落としている。
本稿では,文化横断コミュニケーションにおけるメニュー翻訳の重要な役割を強調する特別評価フレームワークであるMOTBenchとMOTBenchを提案する。
MOTBenchは、各料理の価格とメニュー上の単位項目を正確に認識し翻訳し、視覚的理解と言語処理能力を総合的に評価することを要求する。
我々のベンチマークは中国語と英語のメニューのコレクションで構成されており、複雑なレイアウト、さまざまなフォント、さまざまな言語にまたがる文化的に特定の要素、そして正確な人間のアノテーションが特徴である。
実験の結果, 自動評価の結果は, 専門家による評価と極めて一致していることがわかった。
現状のLVLMの公開範囲を評価し,その出力を分析し,その性能の強さと弱点を把握し,今後のLVLM開発を導く貴重な洞察を提供する。
MOTBenchはhttps://github.com/gitwzl/MOTBench.comで入手できる。
関連論文リスト
- M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。
非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。
本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文 参考訳(メタデータ) (2025-03-06T16:31:34Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。