論文の概要: InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction
- arxiv url: http://arxiv.org/abs/2305.14659v2
- Date: Fri, 17 Nov 2023 17:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:38:12.292300
- Title: InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction
- Title(参考訳): interactiveie:情報抽出性能向上における人間-aiコラボレーションの強み評価に向けて
- Authors: Ishani Mondal, Michelle Yuan, Anandhavelu N, Aparna Garimella, Francis
Ferraro, Andrew Blair-Stanek, Benjamin Van Durme, Jordan Boyd-Graber
- Abstract要約: 文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
- 参考スコア(独自算出の注目度): 48.45550809455558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning template based information extraction from documents is a crucial
yet difficult task. Prior template-based IE approaches assume foreknowledge of
the domain templates; however, real-world IE do not have pre-defined schemas
and it is a figure-out-as you go phenomena. To quickly bootstrap templates in a
real-world setting, we need to induce template slots from documents with zero
or minimal supervision. Since the purpose of question answering intersect with
the goal of information extraction, we use automatic question generation to
induce template slots from the documents and investigate how a tiny amount of a
proxy human-supervision on-the-fly (termed as InteractiveIE) can further boost
the performance. Extensive experiments on biomedical and legal documents, where
obtaining training data is expensive, reveal encouraging trends of performance
improvement using InteractiveIE over AI-only baseline.
- Abstract(参考訳): 文書からテンプレートベースの情報抽出を学習することは極めて難しい作業である。
以前のテンプレートベースのIEアプローチでは、ドメインテンプレートの事前認識を前提としていましたが、現実のIEは事前に定義されたスキーマを持っていません。
テンプレートを現実世界の設定で迅速にブートストラップするには、ゼロまたは最小限の監督でドキュメントからテンプレートスロットを誘導する必要がある。
質問応答は情報抽出の目的と交差するため,文書からテンプレートスロットをインジェクトするために自動質問生成を用い,対話IE(InteractiveIE)と呼ばれるプロキシのごく一部が,パフォーマンスをさらに向上させる方法について検討する。
トレーニングデータの取得が高価であるバイオメディカルおよび法的な文書に関する広範な実験は、aiのみのベースラインよりもinteractiveieを使ったパフォーマンス改善の傾向を奨励している。
関連論文リスト
- AttributionScanner: A Visual Analytics System for Metadata-Free
Data-Slicing Based Model Validation [31.19426148651238]
AttributionScannerは、データスライシングベースの機械学習(ML)モデルの検証用に設計されたビジュアル分析システムである。
提案手法は,説明可能なAI(XAI)技術を用いて抽出した説明可能な特徴を利用して,解釈可能なデータスライスを識別する。
我々のフレームワークは、最先端のニューラルネットワーク正規化技術を使用することで、ドメインエキスパートにモデル問題に対処する権限を与えることで、ML開発サイクルを閉じる。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - On Event Individuation for Document-Level Information Extraction [10.051706937866504]
我々は,この課題が事象の偏見に関する厄介な質問に対して決定的な回答を要求することを主張する。
これにより、テンプレートフィリングメトリクスの有用性、タスクのデータセットの品質、学習するモデルの能力に関する懸念が高まります。
論文 参考訳(メタデータ) (2022-12-19T18:30:36Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - A Span Extraction Approach for Information Extraction on Visually-Rich
Documents [2.3131309703965135]
視覚豊かな文書(VRD)を事前学習する言語モデルの能力向上のための新しいアプローチを提案する。
まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。
また、文書内の意味的エンティティ間の関係をモデル化することに焦点を当てた新しいトレーニングタスクを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:50:04Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。