論文の概要: Doc2Dict: Information Extraction as Text Generation
- arxiv url: http://arxiv.org/abs/2105.07510v1
- Date: Sun, 16 May 2021 20:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 03:56:02.885465
- Title: Doc2Dict: Information Extraction as Text Generation
- Title(参考訳): Doc2Dict:テキスト生成としての情報抽出
- Authors: Benjamin Townsend, Eamon Ito-Fisher, Lily Zhang and Madison May
- Abstract要約: Doc2Dictはドキュメントレベルの情報を抽出するパイプラインである。
既存のデータベースレコードの言語モデルをトレーニングし、構造化されたスパンを生成します。
チェックポインティングとチャンクエンコーディングを用いて,1つのベースライン上の最大32,000トークンのシーケンスに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typically, information extraction (IE) requires a pipeline approach: first, a
sequence labeling model is trained on manually annotated documents to extract
relevant spans; then, when a new document arrives, a model predicts spans which
are then post-processed and standardized to convert the information into a
database entry. We replace this labor-intensive workflow with a transformer
language model trained on existing database records to directly generate
structured JSON. Our solution removes the workload associated with producing
token-level annotations and takes advantage of a data source which is generally
quite plentiful (e.g. database records). As long documents are common in
information extraction tasks, we use gradient checkpointing and chunked
encoding to apply our method to sequences of up to 32,000 tokens on a single
GPU. Our Doc2Dict approach is competitive with more complex, hand-engineered
pipelines and offers a simple but effective baseline for document-level
information extraction. We release our Doc2Dict model and code to reproduce our
experiments and facilitate future work.
- Abstract(参考訳): 一般的に、情報抽出(ie)はパイプラインアプローチを必要とする: まず、シーケンスラベリングモデルは、関連するスパンを抽出するために手動で注釈付きドキュメントに訓練され、その後、新しいドキュメントが到着すると、モデルがスパンを予測する。
既存のデータベースレコードでトレーニングされたトランスフォーマー言語モデルに置き換えて、構造化されたjsonを直接生成します。
当社のソリューションでは,トークンレベルのアノテーション生成に伴うワークロードを取り除き,一般的に非常に豊富な(例えば)データソースを活用する。
データベース・レコード)。
情報抽出タスクでは長いドキュメントが一般的であるので、勾配チェックポイントとチャンク符号化を用いて、1つのGPU上の最大32,000トークンのシーケンスに適用する。
我々のDoc2Dictアプローチは、より複雑で手書きのパイプラインと競合し、文書レベルの情報抽出のためのシンプルで効果的なベースラインを提供します。
Doc2Dictモデルとコードを公開し、実験を再現し、将来の作業を促進する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Plug-and-Play Document Modules for Pre-trained Models [92.9897146991974]
PTM用文書プラグイン(PlugD)として,各文書をプラグイン・アンド・プレイ用文書モジュールとして表現することを提案する。
ダウンストリームタスクのためにドキュメントプラグインをバックボーンPTMに挿入することで、ドキュメントを一度エンコードして複数のタスクを処理することができます。
典型的な4つのNLPタスクの8つのデータセットの実験では、PlugDによって、さまざまなシナリオにまたがって、複数のドキュメントをエンコードすることが可能である。
論文 参考訳(メタデータ) (2023-05-28T08:01:40Z) - CED: Catalog Extraction from Documents [12.037861186708799]
本稿では,文書をカタログ木に解析するトランジションベースのフレームワークを提案する。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
論文 参考訳(メタデータ) (2023-04-28T07:32:00Z) - DoSA : A System to Accelerate Annotations on Business Documents with
Human-in-the-Loop [0.0]
DoSA(Document Specific Automated s)は、新しいブートストラップアプローチを使用して、アノテーションを自動生成するアノテータを支援する。
オープンソースの ready-to-use 実装が GitHub で公開されている。
論文 参考訳(メタデータ) (2022-11-09T15:04:07Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。
Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文 参考訳(メタデータ) (2022-04-03T16:03:19Z) - Sequence-to-Sequence Models for Extracting Information from Registration
and Legal Documents [4.581762147208636]
我々は,法的および登録文書の情報抽出のためのトークンレベルの分類手法の代替としてシーケンス・ツー・シーケンス・モデルを評価する。
我々は、情報を共同で抽出し、既に構造化された形式で出力を生成するモデルを微調整する。
入力テキストと出力を一致させる新しい手法を提案し,システム検査と監査を容易にする。
論文 参考訳(メタデータ) (2022-01-14T20:20:12Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。