論文の概要: A document is worth a structured record: Principled inductive bias design for document recognition
- arxiv url: http://arxiv.org/abs/2507.08458v1
- Date: Fri, 11 Jul 2025 10:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.316353
- Title: A document is worth a structured record: Principled inductive bias design for document recognition
- Title(参考訳): 文書は構造化記録に値する:文書認識のための原理的帰納バイアス設計
- Authors: Benjamin Meyer, Lukas Tuggener, Sascha Hänzi, Daniel Schmid, Erdal Ayfer, Benjamin F. Grewe, Ahmed Abdulkadir, Thilo Stadelmann,
- Abstract要約: 最先端のアプローチは、文書認識をコンピュータビジョン問題として扱う。
文書からレコードへの書き起こしタスクとして文書認識をフレーム化する新しい視点を提案する。
これは、その転写に固有の本質的な構造に基づく文書の自然なグループ化を意味する。
- 参考スコア(独自算出の注目度): 3.4332178437507936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many document types use intrinsic, convention-driven structures that serve to encode precise and structured information, such as the conventions governing engineering drawings. However, state-of-the-art approaches treat document recognition as a mere computer vision problem, neglecting these underlying document-type-specific structural properties, making them dependent on sub-optimal heuristic post-processing and rendering many less frequent or more complicated document types inaccessible to modern document recognition. We suggest a novel perspective that frames document recognition as a transcription task from a document to a record. This implies a natural grouping of documents based on the intrinsic structure inherent in their transcription, where related document types can be treated (and learned) similarly. We propose a method to design structure-specific inductive biases for the underlying machine-learned end-to-end document recognition systems, and a respective base transformer architecture that we successfully adapt to different structures. We demonstrate the effectiveness of the so-found inductive biases in extensive experiments with progressively complex record structures from monophonic sheet music, shape drawings, and simplified engineering drawings. By integrating an inductive bias for unrestricted graph structures, we train the first-ever successful end-to-end model to transcribe engineering drawings to their inherently interlinked information. Our approach is relevant to inform the design of document recognition systems for document types that are less well understood than standard OCR, OMR, etc., and serves as a guide to unify the design of future document foundation models.
- Abstract(参考訳): 多くの文書タイプでは、エンジニアリング図面を規定する規約など、正確で構造化された情報をエンコードするのに役立つ、本質的な慣習駆動型構造を使用している。
しかし、最先端のアプローチは、文書認識を単なるコンピュータビジョン問題として扱い、これらの基礎となる文書タイプ固有の構造特性を無視し、それらが準最適ヒューリスティックな後処理に依存し、現代の文書認識にはアクセスできない、より頻度の低い、より複雑な文書タイプをレンダリングする。
文書からレコードへの書き起こしタスクとして文書認識をフレーム化する新しい視点を提案する。
これは、関連する文書のタイプを同じように扱う(そして学習する)ことができる、本質的な構造に基づく文書の自然なグループ化を意味する。
本稿では,機械学習による文書認識システムに対して,構造固有の帰納バイアスを設計する手法と,異なる構造に適応する基本トランスアーキテクチャを提案する。
本研究では, モノラルシート音楽, 形状図面, 簡易なエンジニアリング図面から, 漸進的に複雑な記録構造を応用した大規模な実験において, いわゆる帰納バイアスの有効性を実証する。
非制限グラフ構造に対する帰納バイアスを統合することにより、エンジニアリング図面を本質的に相互に関連付けられた情報に書き起こすために、初めて成功したエンドツーエンドモデルを訓練する。
本手法は,標準OCRやOMRなどほど理解されていない文書タイプを対象とした文書認識システムの設計を通知し,将来の文書基盤モデルの設計を統一するためのガイドとして機能する。
関連論文リスト
- DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。