論文の概要: Ancient Script Image Recognition and Processing: A Review
- arxiv url: http://arxiv.org/abs/2506.19208v1
- Date: Tue, 24 Jun 2025 00:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.420365
- Title: Ancient Script Image Recognition and Processing: A Review
- Title(参考訳): 古代のスクリプト画像認識と処理 - レビュー
- Authors: Xiaolei Diao, Rite Bo, Yanling Xiao, Lida Shi, Zhihan Zhou, Hao Xu, Chuntao Li, Xiongfeng Tang, Massimo Poesio, Cédric M. John, Daqian Shi,
- Abstract要約: 古代の文字は人類文明の重要なキャリアとして機能し、貴重な歴史的・文化的情報を埋め込んでいる。
ディープラーニングの台頭に伴い、この分野は急速に進展し、多くのスクリプト固有のデータセットやモデルが提案されている。
この調査は、古代のスクリプト画像認識手法の総合的なレビューを提供する。
- 参考スコア(独自算出の注目度): 14.441098701208693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ancient scripts, e.g., Egyptian hieroglyphs, Oracle Bone Inscriptions, and Ancient Greek inscriptions, serve as vital carriers of human civilization, embedding invaluable historical and cultural information. Automating ancient script image recognition has gained importance, enabling large-scale interpretation and advancing research in archaeology and digital humanities. With the rise of deep learning, this field has progressed rapidly, with numerous script-specific datasets and models proposed. While these scripts vary widely, spanning phonographic systems with limited glyphs to logographic systems with thousands of complex symbols, they share common challenges and methodological overlaps. Moreover, ancient scripts face unique challenges, including imbalanced data distribution and image degradation, which have driven the development of various dedicated methods. This survey provides a comprehensive review of ancient script image recognition methods. We begin by categorizing existing studies based on script types and analyzing respective recognition methods, highlighting both their differences and shared strategies. We then focus on challenges unique to ancient scripts, systematically examining their impact and reviewing recent solutions, including few-shot learning and noise-robust techniques. Finally, we summarize current limitations and outline promising future directions. Our goal is to offer a structured, forward-looking perspective to support ongoing advancements in the recognition, interpretation, and decipherment of ancient scripts.
- Abstract(参考訳): 古代の文字、例えばエジプトのヒエログリフ、オラクルの骨碑文、古代ギリシアの碑文は、人類文明の重要なキャリアとして機能し、貴重な歴史的・文化的情報を埋め込んでいる。
古代の文字画像認識の自動化が重要となり、大規模な解釈が可能となり、考古学やデジタル人文科学の研究が進められた。
ディープラーニングの台頭に伴い、この分野は急速に進展し、多くのスクリプト固有のデータセットやモデルが提案されている。
これらのスクリプトは幅広い種類があり、グリフが限られている音素系から数千の複雑な記号を持つ音素系にまたがっているが、共通の課題と方法論的な重複を共有している。
さらに、古文書には不均衡なデータ分布や画像劣化など独自の課題があり、様々な専用の方法が開発されている。
この調査は、古代のスクリプト画像認識手法の総合的なレビューを提供する。
まず、スクリプトタイプに基づいて既存の研究を分類し、それぞれの認識方法を分析し、それらの違いと共有戦略の両方を強調します。
次に、古代のスクリプトに特有の課題に注目し、その影響を体系的に検証し、最近のソリューションをレビューする。
最後に、現在の制限を要約し、将来有望な方向性を概説する。
私たちのゴールは、古代のスクリプトの認識、解釈、解読における継続的な進歩をサポートするために、構造化された前方の視点を提供することです。
関連論文リスト
- Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。
この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。
本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-03-26T17:12:34Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - AGTGAN: Unpaired Image Translation for Photographic Ancient Character
Generation [27.77329906930072]
本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。
グローバルなグリフ形状と局所的なグリフ形状のモデリングにより,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。
得られた画像から,最大写真オラクル骨キャラクタデータセットを用いた実験により,分類精度を最大16.34%向上させることができた。
論文 参考訳(メタデータ) (2023-03-13T11:18:41Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。