論文の概要: Callico: a Versatile Open-Source Document Image Annotation Platform
- arxiv url: http://arxiv.org/abs/2405.01071v1
- Date: Thu, 2 May 2024 08:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:23:40.713598
- Title: Callico: a Versatile Open-Source Document Image Annotation Platform
- Title(参考訳): Callico: ユビキタスなオープンソースドキュメンテーションイメージアノテーションプラットフォーム
- Authors: Christopher Kermorvant, Eva Bardou, Manon Blanco, Bastien Abadie,
- Abstract要約: CallicoはWebベースのオープンソースプラットフォームで、文書認識プロジェクトのアノテーションプロセスを簡単にするように設計されている。
このプラットフォームは、オープンソース開発へのコミットメントによって、多彩な機能を備えたコラボレーティブアノテーションをサポートしている。
例としては、ベルフォート市立登録簿の転写、フランス第二次世界大戦の捕虜のICRCへの索引付け、ソックフェイスプロジェクトの国勢調査リストからの個人情報の抽出などがある。
- 参考スコア(独自算出の注目度): 3.306544219329259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Callico, a web-based open source platform designed to simplify the annotation process in document recognition projects. The move towards data-centric AI in machine learning and deep learning underscores the importance of high-quality data, and the need for specialised tools that increase the efficiency and effectiveness of generating such data. For document image annotation, Callico offers dual-display annotation for digitised documents, enabling simultaneous visualisation and annotation of scanned images and text. This capability is critical for OCR and HTR model training, document layout analysis, named entity recognition, form-based key value annotation or hierarchical structure annotation with element grouping. The platform supports collaborative annotation with versatile features backed by a commitment to open source development, high-quality code standards and easy deployment via Docker. Illustrative use cases - including the transcription of the Belfort municipal registers, the indexing of French World War II prisoners for the ICRC, and the extraction of personal information from the Socface project's census lists - demonstrate Callico's applicability and utility.
- Abstract(参考訳): 本稿では,文書認識プロジェクトにおけるアノテーションプロセスの簡略化を目的とした,WebベースのオープンソースプラットフォームであるCalicoについて述べる。
機械学習とディープラーニングにおけるデータ中心型AIへの移行は、高品質なデータの重要性と、そのようなデータを生成する効率と効率を高めるための専門化されたツールの必要性を強調している。
文書画像のアノテーションとして、Calicoはデジタル化された文書の二重表示アノテーションを提供し、スキャンされた画像とテキストの同時可視化とアノテーションを可能にする。
この機能は、OCRおよびHTRモデルのトレーニング、ドキュメントレイアウト解析、名前付きエンティティ認識、フォームベースのキーバリューアノテーション、または要素グループ化による階層構造アノテーションにとって重要である。
このプラットフォームは、オープンソース開発へのコミットメント、高品質のコード標準、Dockerによるデプロイの容易さを背景とした、多彩な機能を備えた共同アノテーションをサポートする。
ベルフォート市立登録簿の書き起こし、フランス第2次世界大戦の捕虜のICRCへの索引付け、ソックフェイスプロジェクトの国勢調査リストからの個人情報の抽出など、図解的なユースケースは、カリコの応用性と実用性を実証している。
関連論文リスト
- Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents [4.298545628576284]
手書き文書理解のための完全なエンドツーエンドアーキテクチャであるDANIEL(Document Attention Network for Information extract and Labelling)を紹介する。
DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。
複数の言語、レイアウト、タスクを同時に学習できる。
論文 参考訳(メタデータ) (2024-07-12T09:09:56Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Keyphrase Generation with Cross-Document Attention [28.565813544820553]
キーワード生成は、与えられた文書の本質を要約した一連のフレーズを作成することを目的としている。
本稿では,トランスフォーマーをグローバルな注目を集めるキーフレーズ生成装置CDKGenを提案する。
また,キーフレーズ中の語彙外単語を扱うために,文書から適切な単語を選択することで,モデルを強化するコピー機構も採用している。
論文 参考訳(メタデータ) (2020-04-21T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。