論文の概要: InstructIE: A Chinese Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v1
- Date: Fri, 19 May 2023 08:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:15:21.549237
- Title: InstructIE: A Chinese Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE: 中国のインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Jintian Zhang, Hongbin Ye, Ningyu Zhang
- Abstract要約: Instruction-based IE と呼ばれる新しい情報抽出タスクを導入する。
本課題は,情報抽出のための特定の指示やガイドラインに従うようシステムに求めることである。
中国語ウィキペディアの270,000の弱教師付きデータからなるInstructIEというデータセットを構築した。
- 参考スコア(独自算出の注目度): 15.340905390397202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new Information Extraction (IE) task dubbed Instruction-based
IE, which aims to ask the system to follow specific instructions or guidelines
to extract information. To facilitate research in this area, we construct a
dataset called InstructIE, consisting of 270,000 weakly supervised data from
Chinese Wikipedia and 1,000 high-quality crowdsourced annotated instances. We
further evaluate the performance of various baseline models on the InstructIE
dataset. The results reveal that although current models exhibit promising
performance, there is still room for improvement. Furthermore, we conduct a
comprehensive case study analysis, underlining the challenges inherent in the
Instruction-based IE task. Code and dataset are available at
https://github.com/zjunlp/DeepKE/tree/main/example/llm.
- Abstract(参考訳): 本稿では,情報抽出のための具体的な指示やガイドラインに従うようシステムに依頼する命令ベースieと呼ばれる新しい情報抽出(ie)タスクを提案する。
この領域の研究を容易にするために,中国ウィキペディアの270,000の弱教師付きデータと,高品質のクラウドソースアノテーション付インスタンス1,000のデータセットを構築した。
InstructIEデータセット上での各種ベースラインモデルの性能をさらに評価する。
その結果,現在のモデルでは有望な性能を示すが,改善の余地はまだある。
さらに、包括的なケーススタディ分析を行い、命令ベースのieタスクに内在する課題を概説する。
コードとデータセットはhttps://github.com/zjunlp/DeepKE/tree/main/example/llm.comから入手できる。
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - WebIE: Faithful and Robust Information Extraction on the Web [7.361265860494963]
We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
論文 参考訳(メタデータ) (2023-05-23T17:37:53Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction [0.9966318185310058]
我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
論文 参考訳(メタデータ) (2021-01-27T02:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。