論文の概要: Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories
- arxiv url: http://arxiv.org/abs/2302.08948v1
- Date: Fri, 17 Feb 2023 15:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:15:47.093251
- Title: Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories
- Title(参考訳): 視覚とテキストの混合言語モデルを用いたエントリ分離:19世紀フランスの貿易目録への応用
- Authors: Bertrand Dum\'enieu (1), Edwin Carlinet (2), Nathalie Abadie (3),
Joseph Chazalon (2) ((1) LaD\'eHiS, CRH, EHESS, France, (2) EPITA Research
Laboratory (LRE), France, (3) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, France)
- Abstract要約: 重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
- 参考スコア(独自算出の注目度): 18.323615434182553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When extracting structured data from repetitively organized documents, such
as dictionaries, directories, or even newspapers, a key challenge is to
correctly segment what constitutes the basic text regions for the target
database. Traditionally, such a problem was tackled as part of the layout
analysis and was mostly based on visual clues for dividing (top-down)
approaches. Some agglomerating (bottom-up) approaches started to consider
textual information to link similar contents, but they required a proper
over-segmentation of fine-grained units. In this work, we propose a new
pragmatic approach whose efficiency is demonstrated on 19th century French
Trade Directories. We propose to consider two sub-problems: coarse layout
detection (text columns and reading order), which is assumed to be effective
and not detailed here, and a fine-grained entry separation stage for which we
propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By
injecting special visual tokens, coding, for instance, indentation or breaks,
into the token stream of the language model used for NER purpose, we can
leverage both textual and visual knowledge simultaneously. Code, data, results
and models are available at
https://github.com/soduco/paper-entryseg-icdar23-code,
https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)
- Abstract(参考訳): 辞書やディレクトリ、さらには新聞など、繰り返し整理された文書から構造化されたデータを抽出する場合、ターゲットデータベースの基本テキスト領域を構成するものを正しく分割することが重要な課題となる。
従来、このような問題はレイアウト分析の一部として取り組まれ、主に(トップダウン)アプローチを分割するための視覚的な手がかりに基づいていた。
いくつかの凝集(ボトムアップ)アプローチは、類似したコンテンツをリンクするためにテキスト情報を考慮し始めたが、それらは適切な細粒度単位のオーバーセグメンテーションを必要とした。
そこで本研究では,19世紀フランスの貿易目録に効率性を示す新しい実用的手法を提案する。
そこで我々は,ここでは有効で詳細ではないと思われる粗いレイアウト検出(テキスト列と読み順)と,最先端の名前付きエンティティ認識(ner)アプローチを適用するための細粒度のエントリ分離ステージを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
コード、データ、結果、モデルはhttps://github.com/soduco/paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)で入手できる。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。