論文の概要: InstructIE: A Chinese Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v1
- Date: Fri, 19 May 2023 08:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:15:21.549237
- Title: InstructIE: A Chinese Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE: 中国のインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Jintian Zhang, Hongbin Ye, Ningyu Zhang
- Abstract要約: Instruction-based IE と呼ばれる新しい情報抽出タスクを導入する。
本課題は,情報抽出のための特定の指示やガイドラインに従うようシステムに求めることである。
中国語ウィキペディアの270,000の弱教師付きデータからなるInstructIEというデータセットを構築した。
- 参考スコア(独自算出の注目度): 15.340905390397202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new Information Extraction (IE) task dubbed Instruction-based
IE, which aims to ask the system to follow specific instructions or guidelines
to extract information. To facilitate research in this area, we construct a
dataset called InstructIE, consisting of 270,000 weakly supervised data from
Chinese Wikipedia and 1,000 high-quality crowdsourced annotated instances. We
further evaluate the performance of various baseline models on the InstructIE
dataset. The results reveal that although current models exhibit promising
performance, there is still room for improvement. Furthermore, we conduct a
comprehensive case study analysis, underlining the challenges inherent in the
Instruction-based IE task. Code and dataset are available at
https://github.com/zjunlp/DeepKE/tree/main/example/llm.
- Abstract(参考訳): 本稿では,情報抽出のための具体的な指示やガイドラインに従うようシステムに依頼する命令ベースieと呼ばれる新しい情報抽出(ie)タスクを提案する。
この領域の研究を容易にするために,中国ウィキペディアの270,000の弱教師付きデータと,高品質のクラウドソースアノテーション付インスタンス1,000のデータセットを構築した。
InstructIEデータセット上での各種ベースラインモデルの性能をさらに評価する。
その結果,現在のモデルでは有望な性能を示すが,改善の余地はまだある。
さらに、包括的なケーススタディ分析を行い、命令ベースのieタスクに内在する課題を概説する。
コードとデータセットはhttps://github.com/zjunlp/DeepKE/tree/main/example/llm.comから入手できる。
関連論文リスト
- YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction [20.32778991187863]
ユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。
具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。
論文 参考訳(メタデータ) (2023-12-24T21:33:03Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Benchmarking Large Language Models with Augmented Instructions for
Fine-grained Information Extraction [46.09887436555637]
本稿では,Large Language Models (LLMs) に適した微細なIEベンチマークデータセットを提案する。
本研究では,エンコーダ・デコーダモデル,特にT5およびFLAN-T5の広範な評価により,未知の情報型への一般化が期待できる。
論文 参考訳(メタデータ) (2023-10-08T09:41:18Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - Unnatural Instructions: Tuning Language Models with (Almost) No Human
Labor [48.116843121810135]
非自然的インストラクション(Unnatural Instructions: 創造的で多様なインストラクションの大規模なデータセット)を紹介します。
命令の3つのシード例と4番目の例を抽出した言語モデルによって64,000のサンプルを収集する。
このセットは、モデルに各命令を言い換えるよう促すことで拡張され、約24万の命令、入力、出力の例が生成される。
論文 参考訳(メタデータ) (2022-12-19T18:21:00Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。