論文の概要: ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai
- arxiv url: http://arxiv.org/abs/2511.04479v2
- Date: Fri, 07 Nov 2025 04:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.509291
- Title: ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai
- Title(参考訳): ThaiOCRBench: タイにおける視覚言語理解のためのタスクディバースベンチマーク
- Authors: Surapon Nonesung, Teetouch Jaknamon, Sirinya Chaiophat, Natapong Nitarach, Chanakan Wittayasakpan, Warit Sirichotedumrong, Adisai Na-Thalang, Kunat Pipatanakul,
- Abstract要約: ThaiOCRBenchは、タイ語テキストに富んだ視覚理解タスクにおいて、視覚言語モデル(VLM)を評価するための最初の包括的なベンチマークである。
我々は、プロプライエタリシステムとオープンソースシステムの両方にまたがるゼロショット設定で、最先端のVLMを幅広く評価する。
詳細な誤り分析を通じて,言語バイアス,構造ミスマッチ,幻覚コンテンツといった重要な課題を識別する。
- 参考スコア(独自算出の注目度): 2.4295338216682456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ThaiOCRBench, the first comprehensive benchmark for evaluating vision-language models (VLMs) on Thai text-rich visual understanding tasks. Despite recent progress in multimodal modeling, existing benchmarks predominantly focus on high-resource languages, leaving Thai underrepresented, especially in tasks requiring document structure understanding. ThaiOCRBench addresses this gap by offering a diverse, human-annotated dataset comprising 2,808 samples across 13 task categories. We evaluate a wide range of state-of-the-art VLMs in a zero-shot setting, spanning both proprietary and open-source systems. Results show a significant performance gap, with proprietary models (e.g., Gemini 2.5 Pro) outperforming open-source counterparts. Notably, fine-grained text recognition and handwritten content extraction exhibit the steepest performance drops among open-source models. Through detailed error analysis, we identify key challenges such as language bias, structural mismatch, and hallucinated content. ThaiOCRBench provides a standardized framework for assessing VLMs in low-resource, script-complex settings, and provides actionable insights for improving Thai-language document understanding.
- Abstract(参考訳): タイ語テキストリッチな視覚理解タスク上で視覚言語モデル(VLM)を評価するための総合ベンチマークであるThaiOCRBenchを提案する。
マルチモーダルモデリングの最近の進歩にもかかわらず、既存のベンチマークは主に高リソース言語に焦点を当てており、特に文書構造理解を必要とするタスクにおいてタイ語は過小評価されている。
タイOCRBenchはこのギャップに対処するため、13のタスクカテゴリにわたる2,808のサンプルからなる、多種多様な人間アノテーション付きデータセットを提供する。
我々は、プロプライエタリシステムとオープンソースシステムの両方にまたがるゼロショット設定で、最先端のVLMを幅広く評価する。
結果として、プロプライエタリなモデル(例:Gemini 2.5 Pro)がオープンソースよりも優れているという、大きなパフォーマンスギャップが示されている。
特に、微粒なテキスト認識と手書きコンテンツ抽出は、オープンソースモデルの中で最も急激なパフォーマンス低下を示す。
詳細な誤り分析を通じて,言語バイアス,構造ミスマッチ,幻覚コンテンツといった重要な課題を識別する。
ThaiOCRBenchは、低リソースのスクリプト複雑な設定でVLMを評価するための標準化されたフレームワークを提供し、タイ語の文書理解を改善するための実用的な洞察を提供する。
関連論文リスト
- Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。
非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。
本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文 参考訳(メタデータ) (2025-03-06T16:31:34Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。