論文の概要: DocPolarBERT: A Pre-trained Model for Document Understanding with Relative Polar Coordinate Encoding of Layout Structures
- arxiv url: http://arxiv.org/abs/2507.08606v3
- Date: Thu, 31 Jul 2025 15:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.14716
- Title: DocPolarBERT: A Pre-trained Model for Document Understanding with Relative Polar Coordinate Encoding of Layout Structures
- Title(参考訳): DocPolarBERT:レイアウト構造の相対極座標符号化による文書理解のための事前学習モデル
- Authors: Benno Uthayasooriyar, Antoine Ly, Franck Vermet, Caio Corro,
- Abstract要約: 本稿では,ドキュメント理解のためのレイアウト対応BERTモデルであるDocPolarBERTを紹介する。
我々は、カルト座標よりも相対極座標系におけるテキストブロック位置を考慮した自己注意を拡大する。
- 参考スコア(独自算出の注目度): 6.599755599064449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce DocPolarBERT, a layout-aware BERT model for document understanding that eliminates the need for absolute 2D positional embeddings. We extend self-attention to take into account text block positions in relative polar coordinate system rather than the Cartesian one. Despite being pre-trained on a dataset more than six times smaller than the widely used IIT-CDIP corpus, DocPolarBERT achieves state-of-the-art results. These results demonstrate that a carefully designed attention mechanism can compensate for reduced pre-training data, offering an efficient and effective alternative for document understanding.
- Abstract(参考訳): 文書理解のためのレイアウト対応BERTモデルであるDocPolarBERTを導入する。
我々は、カルト座標よりも相対極座標系におけるテキストブロック位置を考慮した自己注意を拡大する。
広く使われているIIT-CDIPコーパスの6倍以上のデータセットで事前トレーニングされているにもかかわらず、DocPolarBERTは最先端の結果を得る。
これらの結果から,注意機構を慎重に設計することで,事前学習データの削減を補うことができ,文書理解のための効率的かつ効果的な代替手段が提供されることがわかった。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。