論文の概要: HW-MLVQA: Elucidating Multilingual Handwritten Document Understanding with a Comprehensive VQA Benchmark
- arxiv url: http://arxiv.org/abs/2507.15655v1
- Date: Mon, 21 Jul 2025 14:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.435947
- Title: HW-MLVQA: Elucidating Multilingual Handwritten Document Understanding with a Comprehensive VQA Benchmark
- Title(参考訳): HW-MLVQA: 包括的なVQAベンチマークによる多言語手書き文書理解の実現
- Authors: Aniket Pal, Ajoy Mondal, Minesh Mathew, C. V. Jawahar,
- Abstract要約: 本稿では,HW-MLVQAという前衛的なVQAベンチマークについて述べる。
テキスト、画像、統合された画像とテキストのモダリティの3つの異なるモードにまたがる堅牢なベンチマーク評価フレームワークを提供する。
- 参考スコア(独自算出の注目度): 31.753044906301664
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of MultiLingual Visual Question Answering (MLVQA) benchmarks augments the capabilities of large language models (LLMs) and multi-modal LLMs, thereby enabling them to adeptly capture the intricate linguistic subtleties and visual complexities inherent across diverse languages. Despite its potential, the current MLVQA model struggles to fully utilize its capabilities when dealing with the extensive variety of handwritten documents. This article delineates HW-MLVQA, an avant-garde VQA benchmark meticulously crafted to mitigate the dearth of authentic Multilingual Handwritten document comprehension. HW-MLVQA encompasses an extensive collection of 1,600 handwritten Pages complemented by 2,400 question-answers. Furthermore, it provides a robust benchmark evaluation framework spanning three distinct modalities: text, image, and an integrated image & text modality. To simulate authentic real-world contexts devoid of ground truth textual transcriptions, we facilitates a rigorous assessment of proprietary and open-source OCR models. The benchmark aspires to facilitate pivotal advancements in multilingual handwritten document interpretation, fostering innovation and scholarly inquiry within this specialized domain.
- Abstract(参考訳): MLVQA(MultiLingual Visual Question Answering)ベンチマークの増大は、大規模言語モデル(LLM)と多モーダルLLM(Multi-modal LLM)の能力を増大させ、様々な言語に固有の複雑な言語的微妙さと視覚的複雑さを確実に捉えることを可能にする。
その可能性にもかかわらず、現在のMLVQAモデルは、様々な手書き文書を扱う際に、その能力を十分に活用するのに苦労している。
本稿では,Avant-garde VQAベンチマークであるHW-MLVQAについて述べる。
HW-MLVQAは2,400人の質問回答によって補完される1,600個の手書きページの広範なコレクションを含んでいる。
さらに、テキスト、画像、統合された画像とテキストのモダリティの3つの異なるモードにまたがる堅牢なベンチマーク評価フレームワークを提供する。
そこで,本研究では,原文のテキスト書き起こしを伴わない実世界の実世界のコンテキストをシミュレートするため,プロプライエタリおよびオープンソースOCRモデルの厳密な評価を容易にする。
このベンチマークは、多言語手書き文書解釈における重要な進歩を促進し、イノベーションを奨励し、この専門分野における学術的な調査を促進することを目的としている。
関連論文リスト
- Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models [38.739880143262845]
我々は,MLLMが自然言語の短い質問に答える事実性を評価するための,最初の総合的なベンチマークであるSimpleVQAを紹介する。
SimpleVQAは、複数のタスクと複数のシナリオをカバーすること、高品質で挑戦的なクエリを保証すること、静的でタイムレスな参照回答を維持すること、そして評価しやすいこと、の6つの重要な特徴によって特徴付けられる。
論文 参考訳(メタデータ) (2025-02-18T17:04:26Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。