論文の概要: Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese Characters
- arxiv url: http://arxiv.org/abs/2605.11960v1
- Date: Tue, 12 May 2026 11:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.814184
- Title: Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese Characters
- Title(参考訳): 年代記-OCR:漢字の進化軌道の時間的相互知覚ベンチマーク
- Authors: Gengluo Li, Shangpin Peng, Xingyu Wan, Chengquan Zhang, Hao Feng, Xin Xu, Pian Wu, Bang Li, Zengmao Ding, Yongge Liu, Yipei Ye, Yang Yang, Zhan Shu, Guojun Yan, Zhe Li, Can Ma, Weiping Wang, Yu Zhou, Han Hu,
- Abstract要約: 我々は、視覚大言語モデルにおける時間的視覚知覚能力を評価するために特別に設計された最初の総合的なベンチマークであるChronicles-OCRを紹介する。
データセットは、トルトーゼの殻から紙ベースの書道まで、非常に多様な物理メディアを含む、厳密にバランスのとれた2,800枚の画像で構成されている。
クロニクルス-OCRは、4つの厳密な量的タスクを定式化している: クロス周期文字スポッティング、ビジュアル参照によるきめ細かい古文字認識、古代のテキスト解析、スクリプト分類である。
- 参考スコア(独自算出の注目度): 31.3410141149246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Large Language Models (VLLMs) have achieved remarkable success in modern text-rich visual understanding. However, their perceptual robustness in the face of the continuous morphological evolution of historical writing systems remains largely unexplored. Existing ancient text datasets typically focus on isolated historical periods, failing to capture the systematic visual distribution shifts spanning thousands of years. To bridge this gap and empower Digital Humanities, we introduce Chronicles-OCR, the first comprehensive benchmark specifically designed to evaluate the cross-temporal visual perception capabilities of VLLMs across the complete evolutionary trajectory of Chinese characters, known as the Seven Chinese Scripts. Curated in collaboration with top-tier institutional domain experts, the dataset comprises 2,800 strictly balanced images encompassing highly diverse physical media, ranging from tortoise shells to paper-based calligraphy. To accommodate the drastic morphological and topological variations across different historical stages, we propose a novel Stage-Adaptive Annotation Paradigm. Based on this, Chronicles-OCR formulates four rigorous quantitative tasks: cross-period character spotting, fine-grained archaic character recognition via visual referring, ancient text parsing, and script classification. By isolating visual perception from semantic reasoning, Chronicles-OCR provides an authoritative platform to expose the limitations of current VLLMs, paving the way for robust, evolution-aware historical text perception. Chronicles-OCR is publicly available at https://github.com/VirtualLUOUCAS/Chronicles-OCR.
- Abstract(参考訳): 視覚的大言語モデル(VLLM)は、現代テキストに富んだ視覚的理解において顕著な成功を収めた。
しかし、歴史的書記システムの連続的な形態的進化に直面した知覚的堅牢性はほとんど解明されていない。
現存する古代のテキストデータセットは、典型的には孤立した歴史的期間に焦点を当てており、数千年にわたる系統的な視覚分布の変化を捉えていない。
このギャップを埋め、デジタルヒューマニティを高めるために、第7中国語スクリプトとして知られる漢字の完全な進化軌跡にまたがるVLLMの時間的視覚知覚能力を評価するために設計された最初の総合的なベンチマークであるChronicles-OCRを導入する。
このデータセットは、トップクラスの機関の専門家と共同で作成され、2,800枚の厳密なバランスの取れた画像で構成されており、非常に多様な物理メディアを含んでいる。
異なる歴史段階における劇的な形態的・位相的変化に対応するために,我々は新しい段階適応アノテーションパラダイムを提案する。
これに基づいて、Chronicles-OCRは、クロス周期文字スポッティング、ビジュアル参照によるきめ細かい古文字認識、古代のテキスト解析、スクリプト分類の4つの厳密な量的タスクを定式化している。
セマンティック推論から視覚知覚を分離することにより、Chronicles-OCRは、現在のVLLMの限界を明らかにするための権威的なプラットフォームを提供する。
Chronicles-OCRはhttps://github.com/VirtualLUOUCAS/Chronicles-OCRで公開されている。
関連論文リスト
- Structure-Aware Text Recognition for Ancient Greek Critical Editions [16.43811675687955]
本稿では,古代ギリシアの批判版に対する構造対応テキスト認識について検討する。
TEI/XMLソースから生成される185,000ページ画像の大規模な合成コーパスを,タイポグラフィとレイアウトの変動を制御して導入する。
ゼロショット型と微調整型の両方の条件下で,最先端の3つのビジュアル言語モデルを評価する。
論文 参考訳(メタデータ) (2026-03-03T09:42:43Z) - Training Kindai OCR with parallel textline images and self-attention feature distance-based loss [0.6767885381740952]
並列画像対の自己意図的特徴間のギャップを最小限に抑えるために,距離に基づく目的関数を導入する。
本手法は,自己認識表現の識別品質を向上し,歴史文書のOCR性能を向上する。
論文 参考訳(メタデータ) (2025-08-12T01:01:32Z) - ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchは、さまざまな物語構造、視覚スタイル、キャラクター設定にわたるストーリービジュアライゼーションモデルを評価するために設計された包括的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
徹底的な評価を可能にするために、ViStoryBenchは、文字の一貫性、スタイルの類似性、迅速な順守、美的品質、生成アーティファクトを評価する一連の自動メトリクスを導入した。
論文 参考訳(メタデータ) (2025-05-30T17:58:21Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - VGTS: Visually Guided Text Spotting for Novel Categories in Historical Manuscripts [26.09365732823049]
本稿では,1つの注釈付きサポートサンプルを用いて,新しい文字を正確に検出するビジュアルガイドテキストスポッティング(VGTS)手法を提案する。
DSAブロックは、人間の視覚的スポッティングプロセスを模倣して、サポート画像とクエリ画像における識別的空間領域を特定し、焦点を合わせ、学習することを目的としている。
低リソーススポッティングタスクにおける例不均衡問題に対処するため,距離メトリック学習のための埋め込み空間の識別力を高める新しいトーラス損失関数を開発した。
論文 参考訳(メタデータ) (2023-04-03T06:40:52Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。