論文の概要: IEPile: Unearthing Large-Scale Schema-Based Information Extraction
Corpus
- arxiv url: http://arxiv.org/abs/2402.14710v1
- Date: Thu, 22 Feb 2024 17:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:26:02.070708
- Title: IEPile: Unearthing Large-Scale Schema-Based Information Extraction
Corpus
- Title(参考訳): IEPile: 大規模スキーマベースの情報抽出コーパス
- Authors: Honghao Gui, Hongbin Ye, Lin Yuan, Ningyu Zhang, Mengshu Sun, Lei
Liang, Huajun Chen
- Abstract要約: IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
- 参考スコア(独自算出の注目度): 40.190368213538115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable potential across various
domains; however, they exhibit a significant performance gap in Information
Extraction (IE). Note that high-quality instruction data is the vital key for
enhancing the specific capabilities of LLMs, while current IE datasets tend to
be small in scale, fragmented, and lack standardized schema. To this end, we
introduce IEPile, a comprehensive bilingual (English and Chinese) IE
instruction corpus, which contains approximately 0.32B tokens. We construct
IEPile by collecting and cleaning 33 existing IE datasets, and introduce
schema-based instruction generation to unearth a large-scale corpus.
Experimental results on LLaMA and Baichuan demonstrate that using IEPile can
enhance the performance of LLMs for IE, especially the zero-shot
generalization. We open-source the resource and pre-trained models, hoping to
provide valuable support to the NLP community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域において顕著なポテンシャルを示すが、情報抽出(IE)において顕著な性能差を示す。
現在のIEデータセットは、スケールが小さく、断片化され、標準化されたスキーマが欠如している。
そこで本研究では,約0.32bトークンを含む包括的多言語(英語と中国語)ie命令コーパスであるiepileを紹介する。
既存の33のieデータセットを収集・クリーニングし,大規模コーパスを発掘するためにスキーマに基づく命令生成を導入する。
LLaMA と Baichuan の実験結果から,IE 用 LLM の性能,特にゼロショットの一般化が向上することが示された。
リソースとトレーニング済みのモデルをオープンソースとして公開し、nlpコミュニティに貴重なサポートを提供したいと思っています。
関連論文リスト
- INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - GIELLM: Japanese General Information Extraction Large Language Model
Utilizing Mutual Reinforcement Effect [0.0]
汎用情報抽出大言語モデル(GIELLM)について紹介する。
テキスト分類、感性分析、名前付きエンティティ認識、関係抽出、および一様入力出力スキーマを使用したイベント抽出を統合している。
このイノベーションは、このような多様なIEサブタスクを同時に扱うモデルの最初の例である。
論文 参考訳(メタデータ) (2023-11-12T13:30:38Z) - Benchmarking Large Language Models with Augmented Instructions for
Fine-grained Information Extraction [46.09887436555637]
本稿では,Large Language Models (LLMs) に適した微細なIEベンチマークデータセットを提案する。
本研究では,エンコーダ・デコーダモデル,特にT5およびFLAN-T5の広範な評価により,未知の情報型への一般化が期待できる。
論文 参考訳(メタデータ) (2023-10-08T09:41:18Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z) - PIVOINE: Instruction Tuning for Open-world Information Extraction [53.98073623222221]
構造化されていないテキストから包括的エンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドIE)の問題を考える。
我々は,オープンワールドIEを動作させ,自然言語命令を特徴とする目的のエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発した。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
論文 参考訳(メタデータ) (2023-05-24T08:52:08Z) - InstructIE: A Bilingual Instruction-based Information Extraction Dataset [39.78139412407348]
本稿では,命令に基づく情報抽出パラダイムについて検討する。
バイリンガルなテーマ中心のIE命令データセット(中国語と英語)、インストラクタIEを導入し、初めてテーマスキーム設計を取り入れた。
我々は,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-19T08:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。