Fugu-MT 論文翻訳(概要): TextBite: A Historical Czech Document Dataset for Logical Page Segmentation

論文の概要: TextBite: A Historical Czech Document Dataset for Logical Page Segmentation

arxiv url: http://arxiv.org/abs/2503.16664v1
Date: Thu, 20 Mar 2025 19:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.178459
Title: TextBite: A Historical Czech Document Dataset for Logical Page Segmentation
Title（参考訳）: TextBite: 論理ページセグメンテーションのための歴史的チェコの文書データセット
Authors: Martin Kostelník, Karel Beneš, Michal Hradiš,
Abstract要約: 従来のアプローチは論理的セグメンテーションを定義するためにOCRや正確な幾何学に依存していた。 OCRの必要性を避けるため、我々はタスクを画像領域のセグメンテーションとして純粋に定義する。我々は18世紀から20世紀にかけてのチェコの歴史文書のデータセットであるTextBiteを紹介した。データセットは、8,449のページイメージと78,863の注釈付きテキストと、論理的および数学的にコヒーレントなテキストからなる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logical page segmentation is an important step in document analysis, enabling better semantic representations, information retrieval, and text understanding. Previous approaches define logical segmentation either through text or geometric objects, relying on OCR or precise geometry. To avoid the need for OCR, we define the task purely as segmentation in the image domain. Furthermore, to ensure the evaluation remains unaffected by geometrical variations that do not impact text segmentation, we propose to use only foreground text pixels in the evaluation metric and disregard all background pixels. To support research in logical document segmentation, we introduce TextBite, a dataset of historical Czech documents spanning the 18th to 20th centuries, featuring diverse layouts from newspapers, dictionaries, and handwritten records. The dataset comprises 8,449 page images with 78,863 annotated segments of logically and thematically coherent text. We propose a set of baseline methods combining text region detection and relation prediction. The dataset, baselines and evaluation framework can be accessed at https://github.com/DCGM/textbite-dataset.
Abstract（参考訳）: 論理ページセグメンテーションは文書解析において重要なステップであり、より優れた意味表現、情報検索、テキスト理解を可能にする。従来のアプローチでは、OCRや正確な幾何学に依存して、テキストまたは幾何学的オブジェクトを通じて論理的セグメンテーションを定義していた。 OCRの必要性を避けるため、タスクを画像領域のセグメンテーションとして純粋に定義する。さらに,テキストのセグメンテーションに影響を与えない幾何学的変動の影響を受けないようにするために,評価基準において前景のテキストピクセルのみを使用し,すべての背景画素を無視することを提案する。論理文書セグメンテーションの研究を支援するために,我々は18世紀から20世紀にかけてのチェコの歴史的文書のデータセットであるTextBiteを紹介した。データセットは、8,449のページイメージと78,863の注釈付きテキストと、論理的および数学的にコヒーレントなテキストからなる。本稿では,テキスト領域の検出と関係予測を組み合わせたベースライン手法を提案する。データセット、ベースライン、評価フレームワークはhttps://github.com/DCGM/textbite-datasetでアクセスすることができる。

関連論文リスト

ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents [1.2875548392688383]
ClapperTextは、視覚的に劣化した低リソース設定で手書きおよび印刷されたテキスト認識のためのベンチマークデータセットである。データセットは、第2次世界大戦時代のクラッパーボードを含む127のアーカイブビデオセグメントに由来する。クラッパーボードのテキストを認識することは、動きのぼやけ、手書きのバリエーション、露出のゆらぎ、散らかった背景など、大きな課題を生んでいる。
論文参考訳（メタデータ） (2025-10-17T11:44:08Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文参考訳（メタデータ） (2024-04-30T04:53:10Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-01T18:59:03Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文参考訳（メタデータ） (2021-05-12T07:50:42Z)
Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文参考訳（メタデータ） (2021-04-04T07:18:38Z)
Combining Morphological and Histogram based Text Line Segmentation in the OCR Context [0.0]
本論文で提案するアルゴリズム的アプローチはこの目的のために設計されている。本手法は, 品質問題に特有な歴史的データ収集に適用するために開発された。計算コストの低さが組み合わさった有望なセグメンテーション結果のため、このアルゴリズムはルクセンブルク国立図書館のocrパイプラインに組み込まれた。
論文参考訳（メタデータ） (2021-03-16T09:06:25Z)
Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。 TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文参考訳（メタデータ） (2020-11-27T22:50:09Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。