論文の概要: Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories
- arxiv url: http://arxiv.org/abs/2302.08948v1
- Date: Fri, 17 Feb 2023 15:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:15:47.093251
- Title: Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories
- Title(参考訳): 視覚とテキストの混合言語モデルを用いたエントリ分離:19世紀フランスの貿易目録への応用
- Authors: Bertrand Dum\'enieu (1), Edwin Carlinet (2), Nathalie Abadie (3),
Joseph Chazalon (2) ((1) LaD\'eHiS, CRH, EHESS, France, (2) EPITA Research
Laboratory (LRE), France, (3) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, France)
- Abstract要約: 重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
- 参考スコア(独自算出の注目度): 18.323615434182553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When extracting structured data from repetitively organized documents, such
as dictionaries, directories, or even newspapers, a key challenge is to
correctly segment what constitutes the basic text regions for the target
database. Traditionally, such a problem was tackled as part of the layout
analysis and was mostly based on visual clues for dividing (top-down)
approaches. Some agglomerating (bottom-up) approaches started to consider
textual information to link similar contents, but they required a proper
over-segmentation of fine-grained units. In this work, we propose a new
pragmatic approach whose efficiency is demonstrated on 19th century French
Trade Directories. We propose to consider two sub-problems: coarse layout
detection (text columns and reading order), which is assumed to be effective
and not detailed here, and a fine-grained entry separation stage for which we
propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By
injecting special visual tokens, coding, for instance, indentation or breaks,
into the token stream of the language model used for NER purpose, we can
leverage both textual and visual knowledge simultaneously. Code, data, results
and models are available at
https://github.com/soduco/paper-entryseg-icdar23-code,
https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)
- Abstract(参考訳): 辞書やディレクトリ、さらには新聞など、繰り返し整理された文書から構造化されたデータを抽出する場合、ターゲットデータベースの基本テキスト領域を構成するものを正しく分割することが重要な課題となる。
従来、このような問題はレイアウト分析の一部として取り組まれ、主に(トップダウン)アプローチを分割するための視覚的な手がかりに基づいていた。
いくつかの凝集(ボトムアップ)アプローチは、類似したコンテンツをリンクするためにテキスト情報を考慮し始めたが、それらは適切な細粒度単位のオーバーセグメンテーションを必要とした。
そこで本研究では,19世紀フランスの貿易目録に効率性を示す新しい実用的手法を提案する。
そこで我々は,ここでは有効で詳細ではないと思われる粗いレイアウト検出(テキスト列と読み順)と,最先端の名前付きエンティティ認識(ner)アプローチを適用するための細粒度のエントリ分離ステージを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
コード、データ、結果、モデルはhttps://github.com/soduco/paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)で入手できる。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。