論文の概要: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v2
- Date: Wed, 21 Feb 2024 16:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:19:25.612104
- Title: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE:バイリンガルインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei
Liang, Huajun Chen, Ningyu Zhang
- Abstract要約: 本稿では,命令に基づく情報抽出パラダイムについて検討する。
バイリンガルなテーマ中心のIE命令データセット(中国語と英語)、インストラクタIEを導入し、初めてテーマスキーム設計を取り入れた。
我々は,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
- 参考スコア(独自算出の注目度): 39.78139412407348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional information extraction (IE) methodologies, constrained by
pre-defined classes and static training paradigms, often falter in
adaptability, especially in the dynamic world. To bridge this gap, we explore
an instruction-based IE paradigm in this paper, leveraging the substantial
cross-task generalization capabilities of Large Language Models (LLMs). We
observe that most existing IE datasets tend to be overly redundant in their
label sets, which leads to the inclusion of numerous labels not directly
relevant to the extraction content when constructing instructions. To tackle
this issue, we introduce a bilingual theme-centric IE instruction dataset
(Chinese and English), InstructIE, and for the first time, incorporate a theme
scheme design that effectively simplifies the label structure. Furthermore, we
develop an innovative framework named KG2Instruction, which is specifically
designed for the automatic generation of such datasets. Experimental
evaluations based on InstructIE reveal that while current models show promise
in Instruction-based IE tasks, opportunities for their potential optimization
also emerge. The dataset is available at
https://huggingface.co/datasets/zjunlp/InstructIE.
- Abstract(参考訳): 従来の情報抽出(IE)手法は、定義済みのクラスや静的な訓練パラダイムによって制約され、特に動的世界では適応性が低下することが多い。
本稿では,このギャップを埋めるために,Large Language Models (LLMs) のタスク間一般化機能を活用した命令ベースのIEパラダイムを提案する。
既存のIEデータセットの多くはラベルセットに過剰に冗長である傾向にあり、命令を構成する際に直接関連しない多数のラベルが含まれているのを観察する。
そこで本研究では,2言語対応のテーマ中心型ie命令データセット(中国語と英語)を初めて導入し,ラベル構造を効果的に単純化するテーマスキーム設計を取り入れた。
さらに,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
InstructIEに基づく実験的評価では、現在のモデルはインストラクションベースのIEタスクで有望であるが、潜在的な最適化の機会も現れる。
データセットはhttps://huggingface.co/datasets/zjunlp/instructieで利用可能である。
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - WebIE: Faithful and Robust Information Extraction on the Web [7.361265860494963]
We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
論文 参考訳(メタデータ) (2023-05-23T17:37:53Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction [0.9966318185310058]
我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
論文 参考訳(メタデータ) (2021-01-27T02:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。