論文の概要: Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning
- arxiv url: http://arxiv.org/abs/2509.09731v1
- Date: Wed, 10 Sep 2025 13:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.865132
- Title: Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning
- Title(参考訳): 中国の古文書における視覚言語モデルのベンチマーク:OCRから知識推論へ
- Authors: Haiyang Yu, Yuchuan Wu, Fan Shi, Lei Liao, Jinghui Lu, Xiaodong Ge, Han Wang, Minghan Zhuo, Xuecheng Wu, Xiang Fei, Hao Feng, Guozhi Tang, An-Lan Wang, Hanshen Zhu, Yangfan He, Quanhuan Liang, Liyuan Meng, Chao Feng, Can Huang, Jingqun Tang, Bin Li,
- Abstract要約: 我々は,VLM(Vision-Language Models)を評価するために設計された,中国の古文書の最初のベンチマークであるOstDocを提示する。
古代文書には5つのタスク(ページレベルのOCR、頂点翻訳、推論に基づくQA、知識に基づくQA、言語的な変種QA)があり、14のドキュメントタイプ、100冊以上の書籍、約3,000ページをカバーしている。
AncientDocをベースとして,複数のメトリクスを用いて主流のVLMを評価し,人手によるスコアリングのための大規模言語モデルで補足した。
- 参考スコア(独自算出の注目度): 37.68293827920165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese ancient documents, invaluable carriers of millennia of Chinese history and culture, hold rich knowledge across diverse fields but face challenges in digitization and understanding, i.e., traditional methods only scan images, while current Vision-Language Models (VLMs) struggle with their visual and linguistic complexity. Existing document benchmarks focus on English printed texts or simplified Chinese, leaving a gap for evaluating VLMs on ancient Chinese documents. To address this, we present AncientDoc, the first benchmark for Chinese ancient documents, designed to assess VLMs from OCR to knowledge reasoning. AncientDoc includes five tasks (page-level OCR, vernacular translation, reasoning-based QA, knowledge-based QA, linguistic variant QA) and covers 14 document types, over 100 books, and about 3,000 pages. Based on AncientDoc, we evaluate mainstream VLMs using multiple metrics, supplemented by a human-aligned large language model for scoring.
- Abstract(参考訳): 中国の古代文書は、中国の歴史と文化の貴重なキャリアであり、様々な分野の豊富な知識を持っているが、デジタル化と理解の課題に直面している。
既存の文書ベンチマークは、英語の印刷されたテキストや簡体字に重点を置いており、古代中国の文書にVLMを評価するためのギャップを残している。
そこで我々は,OCRから知識推論までVLMを評価するために設計された,中国の古文書の最初のベンチマークである古文書を提示する。
古代文書には5つのタスク(ページレベルのOCR、頂点翻訳、推論に基づくQA、知識に基づくQA、言語的な変種QA)があり、14のドキュメントタイプ、100冊以上の書籍、約3,000ページをカバーしている。
AncientDocをベースとして,複数のメトリクスを用いて主流のVLMを評価し,人手によるスコアリングのための大規模言語モデルで補足した。
関連論文リスト
- VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - Enhancement of text recognition for hanja handwritten documents of Ancient Korea [0.769672852567215]
我々は,古典的手書き文書に対して,高性能な光学文字認識モデルを実装した。
判者手書き文書の認識は有意義で特別な課題である。
論文 参考訳(メタデータ) (2024-12-14T02:29:07Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs [43.1380542830147]
大規模言語モデル(LLM)における言語的・事実的・論理的誤りの訂正を目的とした,中国初の知識編集データセットであるCKnowEditを紹介する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、幅広い情報源から7種類の知識を収集します。
このデータセットを解析することにより、中国語を習得する上で、現在のLLMが直面する課題を強調します。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE [23.598825660594926]
ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
論文 参考訳(メタデータ) (2023-10-14T10:06:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension [9.66226932673554]
ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
論文 参考訳(メタデータ) (2021-12-13T09:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。