論文の概要: Unveiling Text in Challenging Stone Inscriptions: A Character-Context-Aware Patching Strategy for Binarization
- arxiv url: http://arxiv.org/abs/2601.03609v1
- Date: Wed, 07 Jan 2026 05:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.280348
- Title: Unveiling Text in Challenging Stone Inscriptions: A Character-Context-Aware Patching Strategy for Binarization
- Title(参考訳): 石碑文の長文化:二項化のための文字文脈対応型パッチ戦略
- Authors: Pratyush Jena, Amal Joseph, Arnav Sharma, Ravi Kiran Sarvadevabhatla,
- Abstract要約: バイナリ化は、歴史的アーティファクトにおけるテキスト抽出に向けた一般的な第一歩である。
Indicの碑文を二項化するための頑健で適応的なパッチ方式を提案する。
我々の新しいパッチ機構は、古典的および深層学習ベースラインにおけるバイナライズ性能を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 7.572552907946751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binarization is a popular first step towards text extraction in historical artifacts. Stone inscription images pose severe challenges for binarization due to poor contrast between etched characters and the stone background, non-uniform surface degradation, distracting artifacts, and highly variable text density and layouts. These conditions frequently cause existing binarization techniques to fail and struggle to isolate coherent character regions. Many approaches sub-divide the image into patches to improve text fragment resolution and improve binarization performance. With this in mind, we present a robust and adaptive patching strategy to binarize challenging Indic inscriptions. The patches from our approach are used to train an Attention U-Net for binarization. The attention mechanism allows the model to focus on subtle structural cues, while our dynamic sampling and patch selection method ensures that the model learns to overcome surface noise and layout irregularities. We also introduce a carefully annotated, pixel-precise dataset of Indic stone inscriptions at the character-fragment level. We demonstrate that our novel patching mechanism significantly boosts binarization performance across classical and deep learning baselines. Despite training only on single script Indic dataset, our model exhibits strong zero-shot generalization to other Indic and non-indic scripts, highlighting its robustness and script-agnostic generalization capabilities. By producing clean, structured representations of inscription content, our method lays the foundation for downstream tasks such as script identification, OCR, and historical text analysis. Project page: https://ihdia.iiit.ac.in/shilalekhya-binarization/
- Abstract(参考訳): バイナリ化は、歴史的アーティファクトにおけるテキスト抽出に向けた一般的な第一歩である。
石の刻印画像は, 刻印文字と石の背景のコントラストの低さ, 非一様表面劣化, 乱れ, テキスト密度とレイアウトの高度変化により, バイナライゼーションに重大な課題を生じさせる。
これらの条件は、しばしば既存の二項化技法を失敗させ、一貫性のある文字領域の分離に苦慮する。
多くのアプローチでは、イメージをパッチにサブ分割して、テキストフラグメントの解像度を改善し、バイナライズ性能を向上させる。
このことを念頭に置いて、挑戦的なIndic碑文をバイナライズするための堅牢で適応的なパッチ戦略を提案する。
このアプローチからのパッチは、バイナライゼーションのための注意U-Netのトレーニングに使用しています。
注意機構により、モデルが微妙な構造的手がかりに焦点を合わせることができる一方で、動的サンプリングとパッチ選択法により、モデルが表面ノイズやレイアウトの不規則性を克服することを確実にすることができる。
また, 文字フラグメントレベルにおいて, 丁寧に注釈付き, 高精度な印字石碑文データセットを導入する。
我々の新しいパッチ機構は、古典的および深層学習ベースラインにおけるバイナライズ性能を大幅に向上させることを示した。
トレーニングはシングルスクリプトのIndicデータセットに限られるが、我々のモデルは、他のIndicおよび非インデックススクリプトに対して強力なゼロショットの一般化を示し、その堅牢性とスクリプトに依存しない一般化機能を強調している。
本手法は,記述内容のクリーンで構造化された表現を生成することにより,スクリプト識別やOCR,歴史的テキスト解析などの下流タスクの基礎を定めている。
プロジェクトページ:https://ihdia.iiit.ac.in/shilalekhya-binarization/
関連論文リスト
- TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - DreamText: High Fidelity Scene Text Synthesis [14.257966899551212]
シーンテキスト合成では、指定されたテキストを任意の画像にレンダリングする。
現在の方法は、通常、このタスクをエンドツーエンドで定式化するが、トレーニング中に効果的なキャラクタレベルのガイダンスが欠如している。
本稿では,高忠実度シーンテキスト合成のためのDreamTextを提案する。
論文 参考訳(メタデータ) (2024-05-23T15:35:48Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。