論文の概要: Structure-Aware Text Recognition for Ancient Greek Critical Editions
- arxiv url: http://arxiv.org/abs/2603.02803v1
- Date: Tue, 03 Mar 2026 09:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.74076
- Title: Structure-Aware Text Recognition for Ancient Greek Critical Editions
- Title(参考訳): 古代ギリシアの批判版のための構造対応テキスト認識
- Authors: Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot, Thibault Clérice,
- Abstract要約: 本稿では,古代ギリシアの批判版に対する構造対応テキスト認識について検討する。
TEI/XMLソースから生成される185,000ページ画像の大規模な合成コーパスを,タイポグラフィとレイアウトの変動を制御して導入する。
ゼロショット型と微調整型の両方の条件下で,最先端の3つのビジュアル言語モデルを評価する。
- 参考スコア(独自算出の注目度): 16.43811675687955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual language models (VLMs) have transformed end-to-end document understanding. However, their ability to interpret the complex layout semantics of historical scholarly texts remains limited. This paper investigates structure-aware text recognition for Ancient Greek critical editions, which have dense reference hierarchies and extensive marginal annotations. We introduce two novel resources: (i) a large-scale synthetic corpus of 185,000 page images generated from TEI/XML sources with controlled typographic and layout variation, and (ii) a curated benchmark of real scanned editions spanning more than a century of editorial and typographic practices. Using these datasets, we evaluate three state-of-the-art VLMs under both zero-shot and fine-tuning regimes. Our experiments reveal substantial limitations in current VLM architectures when confronted with highly structured historical documents. In zero-shot settings, most models significantly underperform compared to established off-the-shelf software. Nevertheless, the Qwen3VL-8B model achieves state-of-the-art performance, reaching a median Character Error Rate of 1.0\% on real scans. These results highlight both the current shortcomings and the future potential of VLMs for structure-aware recognition of complex scholarly documents.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、エンドツーエンドの文書理解に変化をもたらした。
しかし、歴史文献の複雑なレイアウト意味を解釈する能力は依然として限られている。
本稿では, 古代ギリシアの批判版において, 厳密な参照階層と広範囲の限界アノテーションを有する構造対応テキスト認識について検討する。
私たちは2つの新しいリソースを紹介します。
(i)TEI/XMLソースから生成された185,000ページ画像の大規模な合成コーパスで、タイポグラフィとレイアウトの変動を制御し、
(二)一世紀を超える編集・活字の実践にまたがる実写版を校正したベンチマーク。
これらのデータセットを用いて、ゼロショットと微調整の両方の条件下で、最先端の3つのVLMを評価する。
我々の実験は、高度に構造化された歴史的文書に直面する場合、現在のVLMアーキテクチャにかなりの制限があることを明らかにした。
ゼロショット設定では、ほとんどのモデルは既定のオフ・ザ・シェルフ・ソフトウェアに比べて大幅に性能が低下した。
それにもかかわらず、Qwen3VL-8Bモデルは最先端の性能を達成し、実際のスキャンで11.0\%の文字誤り率に達する。
これらの結果は、複雑な学術文献の構造認識のためのVLMの現在の欠点と将来の可能性の両方を浮き彫りにしている。
関連論文リスト
- Towards Khmer Scene Document Layout Detection [3.5477182055025107]
本研究は,Khmerシーンの文書レイアウト検出に関する総合的研究である。
我々は,(1)Khmerのシーンレイアウトに特化して,ロバストなトレーニングとベンチマークのデータセット,(2)リアルなシーン文書を合成してトレーニングデータをスケール可能なオープンソースドキュメント拡張ツール,(3)オブジェクト指向境界ボックス(OBB)を用いたYOLOアーキテクチャを用いたレイアウト検出ベースラインの3つの重要な要素からなる新しいフレームワークを寄贈する。
論文 参考訳(メタデータ) (2026-02-28T15:30:16Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing [2.7471068141502]
我々は,アルファベットなどの新しいデータ分布に一般化可能なモデルの構築を,集中的な微調整戦略よりも高速に行うことを目的としている。
最先端のメタラーニングとは対照的に、データのスパース分布におけるドメインマージの有効性を示す。
この研究は、表現不足のアルファベットを簡単に適用できるモデルを構築するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2025-06-07T11:05:33Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches [0.0]
ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
論文 参考訳(メタデータ) (2022-12-12T10:10:29Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。