論文の概要: Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction
- arxiv url: http://arxiv.org/abs/2310.16040v1
- Date: Tue, 24 Oct 2023 17:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:17:19.106348
- Title: Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction
- Title(参考訳): インストラクションと抽出:オンデマンド情報抽出のための命令チューニング
- Authors: Yizhu Jiao, Ming Zhong, Sha Li, Ruining Zhao, Siru Ouyang, Heng Ji,
Jiawei Han
- Abstract要約: On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
- 参考スコア(独自算出の注目度): 86.29491354355356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models with instruction-following capabilities open the door
to a wider group of users. However, when it comes to information extraction - a
classic task in natural language processing - most task-specific systems cannot
align well with long-tail ad hoc extraction use cases for non-expert users. To
address this, we propose a novel paradigm, termed On-Demand Information
Extraction, to fulfill the personalized demands of real-world users. Our task
aims to follow the instructions to extract the desired content from the
associated text and present it in a structured tabular format. The table
headers can either be user-specified or inferred contextually by the model. To
facilitate research in this emerging area, we present a benchmark named
InstructIE, inclusive of both automatically generated training data, as well as
the human-annotated test set. Building on InstructIE, we further develop an
On-Demand Information Extractor, ODIE. Comprehensive evaluations on our
benchmark reveal that ODIE substantially outperforms the existing open-source
models of similar size. Our code and dataset are released on
https://github.com/yzjiao/On-Demand-IE.
- Abstract(参考訳): 命令フォロー機能を備えた大規模言語モデルは、より広いグループユーザへの扉を開く。
しかし、情報抽出 - 自然言語処理の古典的なタスク - に関して言えば、ほとんどのタスク固有のシステムは、非専門家ユーザのためのロングテールアドホック抽出ユースケースとうまく連携できない。
そこで本研究では,実世界の利用者の要求に応えるために,オンデマンド情報抽出と呼ばれる新しいパラダイムを提案する。
本課題は,テキストから所望の内容を抽出し,構造化表形式で提示するための指示に従うことである。
テーブルヘッダは、ユーザが指定するか、モデルによってコンテキスト的に推論できる。
この領域での研究を容易にするために,自動生成したトレーニングデータと人間によるテストセットの両方を包含するinstructieというベンチマークを示す。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
ベンチマークの総合的な評価から,ODIEが既存のオープンソースモデルと同等のサイズで大幅に上回っていることが明らかとなった。
私たちのコードとデータセットはhttps://github.com/yzjiao/On-Demand-IEで公開されています。
関連論文リスト
- InstructDET: Diversifying Referring Object Detection with Generalized
Instructions [39.36186258308405]
本稿では,ユーザ指示に基づいて対象オブジェクトをローカライズするオブジェクト検出(ROD)をデータ中心で参照する手法を提案する。
1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する素晴らしい命令を生成します。
論文 参考訳(メタデータ) (2023-10-08T12:10:44Z) - Benchmarking Large Language Models with Augmented Instructions for
Fine-grained Information Extraction [46.09887436555637]
本稿では,Large Language Models (LLMs) に適した微細なIEベンチマークデータセットを提案する。
本研究では,エンコーダ・デコーダモデル,特にT5およびFLAN-T5の広範な評価により,未知の情報型への一般化が期待できる。
論文 参考訳(メタデータ) (2023-10-08T09:41:18Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - PIVOINE: Instruction Tuning for Open-world Information Extraction [53.98073623222221]
構造化されていないテキストから包括的エンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドIE)の問題を考える。
我々は,オープンワールドIEを動作させ,自然言語命令を特徴とする目的のエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発した。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
論文 参考訳(メタデータ) (2023-05-24T08:52:08Z) - InstructIE: A Bilingual Instruction-based Information Extraction Dataset [39.78139412407348]
本稿では,命令に基づく情報抽出パラダイムについて検討する。
バイリンガルなテーマ中心のIE命令データセット(中国語と英語)、インストラクタIEを導入し、初めてテーマスキーム設計を取り入れた。
我々は,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-19T08:51:11Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Structure Generation for Universal Information Extraction [58.89057387608414]
UIEは、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習することができる。
実験によると、UIEは4つのIEタスク、13のデータセット、およびすべての教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-03-23T08:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。