論文の概要: PIVOINE: Instruction Tuning for Open-world Information Extraction
- arxiv url: http://arxiv.org/abs/2305.14898v1
- Date: Wed, 24 May 2023 08:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:04:14.823113
- Title: PIVOINE: Instruction Tuning for Open-world Information Extraction
- Title(参考訳): PIVOINE:オープンワールド情報抽出のためのインストラクションチューニング
- Authors: Keming Lu, Xiaoman Pan, Kaiqiang Song, Hongming Zhang, Dong Yu,
Jianshu Chen
- Abstract要約: 構造化されていないテキストから包括的エンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドIE)の問題を考える。
我々は,オープンワールドIEを動作させ,自然言語命令を特徴とする目的のエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発した。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
- 参考スコア(独自算出の注目度): 53.98073623222221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of Open-world Information Extraction (Open-world IE),
which extracts comprehensive entity profiles from unstructured texts. Different
from the conventional closed-world setting of Information Extraction (IE),
Open-world IE considers a more general situation where entities and relations
could be beyond a predefined ontology. More importantly, we seek to develop a
large language model (LLM) that is able to perform Open-world IE to extract
desirable entity profiles characterized by (possibly fine-grained) natural
language instructions. We achieve this by finetuning LLMs using instruction
tuning. In particular, we construct INSTRUCTOPENWIKI, a substantial instruction
tuning dataset for Open-world IE enriched with a comprehensive corpus,
extensive annotations, and diverse instructions. We finetune the pretrained
BLOOM models on INSTRUCTOPENWIKI and obtain PIVOINE, an LLM for Open-world IE
with strong instruction-following capabilities. Our experiments demonstrate
that PIVOINE significantly outperforms traditional closed-world methods and
other LLM baselines, displaying impressive generalization capabilities on both
unseen instructions and out-of-ontology cases. Consequently, PIVOINE emerges as
a promising solution to tackle the open-world challenge in IE effectively.
- Abstract(参考訳): 非構造化テキストから包括的なエンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドie)の問題を考える。
従来の閉世界情報抽出(IE)とは違い、オープンワールドIEは、エンティティと関係が事前に定義されたオントロジーを超えた、より一般的な状況を考える。
より重要なことは、オープンワールドIEを実行し、(おそらくはきめ細かな)自然言語命令で特徴づけられる望ましいエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発することである。
命令チューニングを用いてLLMを微調整することでこれを実現できる。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
InSTRUCTOPENWIKI上で事前学習したBLOOMモデルを微調整し、強力な命令追従機能を備えたオープンワールドIE用LLMであるPIVOINEを得る。
実験により、PIVOINEは従来の閉世界法や他のLCMベースラインよりも大幅に優れており、目に見えない命令やアウトオブオントロジーのケースで顕著な一般化能力を示すことが示された。
その結果、PIVOINEはIEのオープンワールドチャレンジに効果的に取り組むための有望なソリューションとして登場した。
関連論文リスト
- Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks [12.400599440431188]
自然言語処理(NLP)における情報抽出(IE)の役割
英語IEタスクに焦点をあてた最近の実験は、LLM(Large Language Models)が最適性能を達成する上で直面する課題に光を当てている。
論文 参考訳(メタデータ) (2024-06-04T08:00:40Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - LasUIE: Unifying Information Extraction with Latent Adaptive
Structure-aware Generative Language Model [96.889634747943]
全ての典型的な情報抽出タスク(UIE)を1つの生成言語モデル(GLM)で普遍的にモデル化し、大きな可能性を明らかにした。
UIE のための構文知識のパワーを完全に解放する構造対応 GLM を提案する。
7つのタスクにわたるIEベンチマークが12以上あり、私たちのシステムはベースラインのUIEシステムよりも大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2023-04-13T04:01:14Z) - Unified Structure Generation for Universal Information Extraction [58.89057387608414]
UIEは、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習することができる。
実験によると、UIEは4つのIEタスク、13のデータセット、およびすべての教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-03-23T08:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。