論文の概要: Cost-effective End-to-end Information Extraction for Semi-structured
Document Images
- arxiv url: http://arxiv.org/abs/2104.08041v1
- Date: Fri, 16 Apr 2021 11:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:26:33.547771
- Title: Cost-effective End-to-end Information Extraction for Semi-structured
Document Images
- Title(参考訳): 半構造化文書画像におけるコスト効率のよいエンドツーエンド情報抽出
- Authors: Wonseok Hwang, Hyunji Lee, Jinyeong Yim, Geewook Kim, Minjoon Seo
- Abstract要約: 既存のパイプラインベースのIEシステムからエンドツーエンドシステムに移行する取り組みについて紹介する。
文書IEをシーケンシャル生成タスクとして慎重に定式化することにより、単一エンドツーエンドのIEシステムを構築でき、しかも有能な性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 9.454149895659823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A real-world information extraction (IE) system for semi-structured document
images often involves a long pipeline of multiple modules, whose complexity
dramatically increases its development and maintenance cost. One can instead
consider an end-to-end model that directly maps the input to the target output
and simplify the entire process. However, such generation approach is known to
lead to unstable performance if not designed carefully. Here we present our
recent effort on transitioning from our existing pipeline-based IE system to an
end-to-end system focusing on practical challenges that are associated with
replacing and deploying the system in real, large-scale production. By
carefully formulating document IE as a sequence generation task, we show that a
single end-to-end IE system can be built and still achieve competent
performance.
- Abstract(参考訳): 半構造化文書画像のための実世界の情報抽出(IE)システムは、しばしば複数のモジュールからなる長いパイプラインを必要とする。
代わりに、入力をターゲット出力に直接マップし、プロセス全体を単純化するエンドツーエンドモデルを考えることができる。
しかし、このような生成アプローチは慎重に設計しなければ不安定な性能をもたらすことが知られている。
本稿では,既存のパイプラインベースのIEシステムからエンドツーエンドシステムへの移行に向けた最近の取り組みを紹介する。
文書IEをシーケンシャル生成タスクとして慎重に定式化することにより、単一エンドツーエンドのIEシステムを構築でき、しかも有能な性能を実現することができることを示す。
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - LLM Based Multi-Agent Generation of Semi-structured Documents from
Semantic Templates in the Public Administration Domain [2.3999111269325266]
大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。
所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T13:54:53Z) - DSG: An End-to-End Document Structure Generator [32.040520771901996]
Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-10-13T14:03:01Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - Unified Structure Generation for Universal Information Extraction [58.89057387608414]
UIEは、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習することができる。
実験によると、UIEは4つのIEタスク、13のデータセット、およびすべての教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-03-23T08:49:29Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。