論文の概要: DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral
- arxiv url: http://arxiv.org/abs/2505.03214v1
- Date: Tue, 06 May 2025 06:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.233113
- Title: DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral
- Title(参考訳): DocSpiral: ヒューマン・イン・ザ・スピラルによる補助文書注釈の統合プラットフォーム
- Authors: Qiang Sun, Sirui Li, Tingting Bi, Du Huynh, Mark Reynolds, Yuanyi Luo, Wei Liu,
- Abstract要約: 多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。
多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
- 参考スコア(独自算出の注目度): 11.336757553731639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring structured data from domain-specific, image-based documents such as scanned reports is crucial for many downstream tasks but remains challenging due to document variability. Many of these documents exist as images rather than as machine-readable text, which requires human annotation to train automated extraction systems. We present DocSpiral, the first Human-in-the-Spiral assistive document annotation platform, designed to address the challenge of extracting structured information from domain-specific, image-based document collections. Our spiral design establishes an iterative cycle in which human annotations train models that progressively require less manual intervention. DocSpiral integrates document format normalization, comprehensive annotation interfaces, evaluation metrics dashboard, and API endpoints for the development of AI / ML models into a unified workflow. Experiments demonstrate that our framework reduces annotation time by at least 41\% while showing consistent performance gains across three iterations during model training. By making this annotation platform freely accessible, we aim to lower barriers to AI/ML models development in document processing, facilitating the adoption of large language models in image-based, document-intensive fields such as geoscience and healthcare. The system is freely available at: https://app.ai4wa.com. The demonstration video is available: https://app.ai4wa.com/docs/docspiral/demo.
- Abstract(参考訳): スキャンされたレポートのようなドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することは、多くのダウンストリームタスクには不可欠だが、文書のばらつきのために依然として困難である。
これらの文書の多くは機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
本稿では、ドメイン固有の画像ベースの文書コレクションから構造化情報を取り出すという課題に対処すべく、最初のHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralを提案する。
私たちのスパイラルデザインは、人間のアノテーションが徐々に手作業による介入を減らすモデルを訓練する反復サイクルを確立します。
DocSpiralは、ドキュメントフォーマットの正規化、包括的なアノテーションインターフェース、評価メトリクスダッシュボード、AI/MLモデルの開発のためのAPIエンドポイントを統合ワークフローに統合する。
実験により、私たちのフレームワークは、モデルトレーニング中に3回のイテレーションで一貫したパフォーマンス向上を示しながら、アノテーションの時間を少なくとも41\%削減します。
このアノテーションプラットフォームを自由に利用できるようにすることで、ドキュメント処理におけるAI/MLモデル開発に対する障壁を低くし、画像ベースでジオサイエンスやヘルスケアといったドキュメント集約的な分野において、大きな言語モデルの採用を促進することを目指している。
このシステムは、https://app.ai4wa.com.comで無料で利用できる。
デモビデオは、https://app.ai4wa.com/docs/docspiral/demo.comで公開されている。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - DoSA : A System to Accelerate Annotations on Business Documents with
Human-in-the-Loop [0.0]
DoSA(Document Specific Automated s)は、新しいブートストラップアプローチを使用して、アノテーションを自動生成するアノテータを支援する。
オープンソースの ready-to-use 実装が GitHub で公開されている。
論文 参考訳(メタデータ) (2022-11-09T15:04:07Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。