論文の概要: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v4
- Date: Mon, 29 Jul 2024 03:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:16:44.582631
- Title: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE:バイリンガルインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei Liang, Jeff Z. Pan, Huajun Chen, Ningyu Zhang,
- Abstract要約: 大きな言語モデルは、一般的な自然言語処理でうまく機能するが、その効果は情報抽出(IE)の亜最適である。
最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。
InstructIEは、12のドメインをカバーするバイリンガル命令ベースのIEデータセットである。
- 参考スコア(独自算出の注目度): 44.65162892808696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can perform well on general natural language tasks, but their effectiveness is still suboptimal for information extraction (IE). Recent works indicate that the main reason lies in the lack of extensive data on IE instructions. Note that the existing datasets on IE instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based IE dataset, which covers 12 diverse domains. We propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Additionally, we manually annotate the test set. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better IE capabilities but also enhance zero-shot performance compared with baselines.
- Abstract(参考訳): 大規模言語モデルは、一般的な自然言語処理でよく機能するが、その効果は情報抽出(IE)の亜最適である。
最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。
IE命令の既存のデータセットは、カバー範囲が限られているだけでなく、建設コストも高いことに注意してください。
この問題に対処するために、12の異なるドメインをカバーするバイリンガル命令ベースのIEデータセットであるInstructIEを紹介する。
このようなデータセットの自動生成のためのフレームワークであるKG2Instructionを提案する。
さらに、テストセットを手動でアノテートします。
InstructIEでトレーニングされた大規模な言語モデルでは,IEの性能が向上するだけでなく,ベースラインに比べてゼロショット性能が向上することが実証された。
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - WebIE: Faithful and Robust Information Extraction on the Web [7.361265860494963]
We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
論文 参考訳(メタデータ) (2023-05-23T17:37:53Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction [0.9966318185310058]
我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
論文 参考訳(メタデータ) (2021-01-27T02:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。