論文の概要: InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction
- arxiv url: http://arxiv.org/abs/2305.14659v2
- Date: Fri, 17 Nov 2023 17:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:38:12.292300
- Title: InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction
- Title(参考訳): interactiveie:情報抽出性能向上における人間-aiコラボレーションの強み評価に向けて
- Authors: Ishani Mondal, Michelle Yuan, Anandhavelu N, Aparna Garimella, Francis
Ferraro, Andrew Blair-Stanek, Benjamin Van Durme, Jordan Boyd-Graber
- Abstract要約: 文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
- 参考スコア(独自算出の注目度): 48.45550809455558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning template based information extraction from documents is a crucial
yet difficult task. Prior template-based IE approaches assume foreknowledge of
the domain templates; however, real-world IE do not have pre-defined schemas
and it is a figure-out-as you go phenomena. To quickly bootstrap templates in a
real-world setting, we need to induce template slots from documents with zero
or minimal supervision. Since the purpose of question answering intersect with
the goal of information extraction, we use automatic question generation to
induce template slots from the documents and investigate how a tiny amount of a
proxy human-supervision on-the-fly (termed as InteractiveIE) can further boost
the performance. Extensive experiments on biomedical and legal documents, where
obtaining training data is expensive, reveal encouraging trends of performance
improvement using InteractiveIE over AI-only baseline.
- Abstract(参考訳): 文書からテンプレートベースの情報抽出を学習することは極めて難しい作業である。
以前のテンプレートベースのIEアプローチでは、ドメインテンプレートの事前認識を前提としていましたが、現実のIEは事前に定義されたスキーマを持っていません。
テンプレートを現実世界の設定で迅速にブートストラップするには、ゼロまたは最小限の監督でドキュメントからテンプレートスロットを誘導する必要がある。
質問応答は情報抽出の目的と交差するため,文書からテンプレートスロットをインジェクトするために自動質問生成を用い,対話IE(InteractiveIE)と呼ばれるプロキシのごく一部が,パフォーマンスをさらに向上させる方法について検討する。
トレーニングデータの取得が高価であるバイオメディカルおよび法的な文書に関する広範な実験は、aiのみのベースラインよりもinteractiveieを使ったパフォーマンス改善の傾向を奨励している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - On Event Individuation for Document-Level Information Extraction [10.051706937866504]
我々は,この課題が事象の偏見に関する厄介な質問に対して決定的な回答を要求することを主張する。
これにより、テンプレートフィリングメトリクスの有用性、タスクのデータセットの品質、学習するモデルの能力に関する懸念が高まります。
論文 参考訳(メタデータ) (2022-12-19T18:30:36Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - A Span Extraction Approach for Information Extraction on Visually-Rich
Documents [2.3131309703965135]
視覚豊かな文書(VRD)を事前学習する言語モデルの能力向上のための新しいアプローチを提案する。
まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。
また、文書内の意味的エンティティ間の関係をモデル化することに焦点を当てた新しいトレーニングタスクを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:50:04Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。