論文の概要: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v3
- Date: Thu, 18 Apr 2024 16:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:49:22.957277
- Title: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE:バイリンガルインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei Liang, Jeff Z. Pan, Huajun Chen, Ningyu Zhang,
- Abstract要約: 大規模言語モデルは、一般的な自然言語処理でうまく機能するが、その有効性は情報抽出に最適ではない。
最近の研究は、情報抽出命令に関する広範なデータがないことが主な理由であることを示している。
InstructIEは、12のドメインをカバーするバイリンガル命令に基づく情報抽出データセットである。
- 参考スコア(独自算出の注目度): 44.65162892808696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can perform well on general natural language tasks, but their effectiveness is still not optimal for information extraction. Recent works indicate that the main reason lies in the lack of extensive data on information extraction instructions. Note that the existing datasets on information extraction instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based information extraction dataset, which covers 12 diverse domains. Specifically, we propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better information extraction capabilities but also enhance zero-shot performance compared with baselines.
- Abstract(参考訳): 大規模言語モデルは、一般的な自然言語処理でうまく機能するが、その有効性は情報抽出に最適ではない。
最近の研究は、情報抽出命令に関する広範なデータがないことが主な理由であることを示している。
既存の情報抽出命令のデータセットは、カバー範囲が限られているだけでなく、建設コストも高いことに注意。
この問題に対処するために,12のドメインをカバーするバイリンガル命令に基づく情報抽出データセットであるInstructIEを紹介する。
具体的には、これらのデータセットの自動生成に特化したフレームワークであるKG2Instructionを提案する。
InstructIEで訓練した大規模言語モデルでは,情報抽出能力の向上だけでなく,ベースラインに比べてゼロショット性能の向上が期待できる。
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - WebIE: Faithful and Robust Information Extraction on the Web [7.361265860494963]
We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
論文 参考訳(メタデータ) (2023-05-23T17:37:53Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction [0.9966318185310058]
我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
論文 参考訳(メタデータ) (2021-01-27T02:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。