論文の概要: End-to-End Text Line Detection and Ordering
- arxiv url: http://arxiv.org/abs/2606.04166v1
- Date: Tue, 02 Jun 2026 19:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.350574
- Title: End-to-End Text Line Detection and Ordering
- Title(参考訳): テキスト行の終端検出と順序付け
- Authors: Benjamin Kiessling,
- Abstract要約: Orliは、両方のサブタスクを単一のイメージ・ツー・シーケンス問題としてキャストするエンドツーエンドモデルである。
ページイメージから、Orliは読み順でテキスト行のベースラインを直接自動回帰生成する。
10の書記システムにまたがる196,691ページの異種コーパスで訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical text-recognition pipelines for historical documents typically decompose layout analysis into line detection followed by a separate reading-order step, with the latter most often handled by a hand-coded geometric heuristic that struggles with marginalia, multiple columns, tables, and source-specific editorial conventions. This article introduces Orli (Ordered Regression of Lines), an end-to-end model that casts both sub-tasks as a single image-to-sequence problem: from a page image, Orli autoregressively generates text-line baselines directly in reading order. Baselines are represented in a chord-frame parameterization that anchors a line's position, orientation, and extent while encoding local geometry through perpendicular offsets; an iterative refinement head and a local visual refiner produce the final curve. Trained on a heterogeneous corpus of 196,691 pages spanning ten writing systems, Orli marginally exceeds the previously reported state of the art for cBAD line detection without dataset-specific training, reaches near perfect coverage and ordering on multiple reading-order benchmarks zero-shot, and adapts to more specialized out-of-domain layouts with limited fine-tuning. The method's source code and model weights are available under an open license at https://github.com/mittagessen/orli.
- Abstract(参考訳): 歴史文書の実践的なテキスト認識パイプラインは、レイアウト解析を行検出に分解し、次に別の読み順ステップで処理するのが一般的であり、後者は手書きの幾何学的ヒューリスティック(英語版)によって扱われる。
この記事では、ページイメージから、Orliが読み出し順序でテキスト行ベースラインを直接自動回帰的に生成する、両方のサブタスクを単一の画像からシーケンス問題としてキャストするエンドツーエンドモデルであるOrli(Ordered Regression of Lines)を紹介します。
ベースラインは、垂直オフセットを通して局所幾何学を符号化しながら、行の位置、向き、範囲をアンカーするコードフレームパラメータ化で表現される。
Orliは10の書き込みシステムにまたがる196,691ページのヘテロジニアスコーパスでトレーニングされ、データセット固有のトレーニングなしでcBADライン検出の最先端技術を超え、完全なカバレッジに近づき、複数の読み取り順序ベンチマークをゼロショットで順序付けし、より特殊なドメイン外のレイアウトに限定的に適応する。
メソッドのソースコードとモデルの重み付けは、https://github.com/mittagessen/orli.comのオープンライセンスで利用できる。
関連論文リスト
- Scaling Multi-Hop Training Data via Graph-Constrained Path Selection [40.133031562641044]
推論パスは文脈キーワードであるCentroidのグラフ上でオフラインに列挙され、教師は事前に検証されたパスにのみ呼び出される。
等訓練スケールでは、制約された鎖と制約のない鎖は区別不能な下流のパフォーマンスをもたらし、フルスケールでの利得は使用可能なコーパスの4.4$times$拡張から得られる。
Qwen3-32B CUAD法定契約コーパスから構築された80K のファインチューニングの Qwen3-32B は、クローズドブックの Token F1 を 21.66% から 38.58% に改善した。
論文 参考訳(メタデータ) (2026-05-29T12:39:03Z) - LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - Deep Hough Transform for Semantic Line Detection [70.28969017874587]
自然の場面で意味のある線構造、つまり意味的な線を検知する基本的なタスクに焦点をあてる。
従来の手法は線の性質を無視し、準最適性能をもたらす。
行検出のためのワンショットエンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-10T13:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。