論文の概要: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- arxiv url: http://arxiv.org/abs/2305.11527v2
- Date: Wed, 21 Feb 2024 16:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:19:25.612104
- Title: InstructIE: A Bilingual Instruction-based Information Extraction Dataset
- Title(参考訳): InstructIE:バイリンガルインストラクションに基づく情報抽出データセット
- Authors: Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei
Liang, Huajun Chen, Ningyu Zhang
- Abstract要約: 本稿では,命令に基づく情報抽出パラダイムについて検討する。
バイリンガルなテーマ中心のIE命令データセット(中国語と英語)、インストラクタIEを導入し、初めてテーマスキーム設計を取り入れた。
我々は,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
- 参考スコア(独自算出の注目度): 39.78139412407348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional information extraction (IE) methodologies, constrained by
pre-defined classes and static training paradigms, often falter in
adaptability, especially in the dynamic world. To bridge this gap, we explore
an instruction-based IE paradigm in this paper, leveraging the substantial
cross-task generalization capabilities of Large Language Models (LLMs). We
observe that most existing IE datasets tend to be overly redundant in their
label sets, which leads to the inclusion of numerous labels not directly
relevant to the extraction content when constructing instructions. To tackle
this issue, we introduce a bilingual theme-centric IE instruction dataset
(Chinese and English), InstructIE, and for the first time, incorporate a theme
scheme design that effectively simplifies the label structure. Furthermore, we
develop an innovative framework named KG2Instruction, which is specifically
designed for the automatic generation of such datasets. Experimental
evaluations based on InstructIE reveal that while current models show promise
in Instruction-based IE tasks, opportunities for their potential optimization
also emerge. The dataset is available at
https://huggingface.co/datasets/zjunlp/InstructIE.
- Abstract(参考訳): 従来の情報抽出(IE)手法は、定義済みのクラスや静的な訓練パラダイムによって制約され、特に動的世界では適応性が低下することが多い。
本稿では,このギャップを埋めるために,Large Language Models (LLMs) のタスク間一般化機能を活用した命令ベースのIEパラダイムを提案する。
既存のIEデータセットの多くはラベルセットに過剰に冗長である傾向にあり、命令を構成する際に直接関連しない多数のラベルが含まれているのを観察する。
そこで本研究では,2言語対応のテーマ中心型ie命令データセット(中国語と英語)を初めて導入し,ラベル構造を効果的に単純化するテーマスキーム設計を取り入れた。
さらに,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
InstructIEに基づく実験的評価では、現在のモデルはインストラクションベースのIEタスクで有望であるが、潜在的な最適化の機会も現れる。
データセットはhttps://huggingface.co/datasets/zjunlp/instructieで利用可能である。
関連論文リスト
- A Regularization-based Transfer Learning Method for Information
Extraction via Instructed Graph Decoder [29.242560023747252]
グラフデコーダを用いたIE(TIE)の正規化に基づく転送学習手法を提案する。
具体的には、まず、よく知られたすべてのIEタスクからデータセットの命令プールを構築し、次に指示されたグラフデコーダを提示する。
このようにして、既存のデータセットと共有される共通知識を学び、新しいラベルを持つ新しいデータセットに転送することができる。
論文 参考訳(メタデータ) (2024-03-01T13:04:12Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction
Corpus [40.190368213538115]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - PIVOINE: Instruction Tuning for Open-world Information Extraction [53.98073623222221]
構造化されていないテキストから包括的エンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドIE)の問題を考える。
我々は,オープンワールドIEを動作させ,自然言語命令を特徴とする目的のエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発した。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
論文 参考訳(メタデータ) (2023-05-24T08:52:08Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - LasUIE: Unifying Information Extraction with Latent Adaptive
Structure-aware Generative Language Model [96.889634747943]
全ての典型的な情報抽出タスク(UIE)を1つの生成言語モデル(GLM)で普遍的にモデル化し、大きな可能性を明らかにした。
UIE のための構文知識のパワーを完全に解放する構造対応 GLM を提案する。
7つのタスクにわたるIEベンチマークが12以上あり、私たちのシステムはベースラインのUIEシステムよりも大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2023-04-13T04:01:14Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - Unified Structure Generation for Universal Information Extraction [58.89057387608414]
UIEは、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習することができる。
実験によると、UIEは4つのIEタスク、13のデータセット、およびすべての教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-03-23T08:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。