論文の概要: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction
- arxiv url: http://arxiv.org/abs/2101.11177v1
- Date: Wed, 27 Jan 2021 02:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:50:02.061071
- Title: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction
- Title(参考訳): LSOIE: 教師付きオープン情報抽出のための大規模データセット
- Authors: Jacob Solawetz, Stefan Larson
- Abstract要約: 我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
- 参考スコア(独自算出の注目度): 0.9966318185310058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Information Extraction (OIE) systems seek to compress the factual
propositions of a sentence into a series of n-ary tuples. These tuples are
useful for downstream tasks in natural language processing like knowledge base
creation, textual entailment, and natural language understanding. However,
current OIE datasets are limited in both size and diversity. We introduce a new
dataset by converting the QA-SRL 2.0 dataset to a large-scale OIE dataset
(LSOIE). Our LSOIE dataset is 20 times larger than the next largest
human-annotated OIE dataset. We construct and evaluate several benchmark OIE
models on LSOIE, providing baselines for future improvements on the task. Our
LSOIE data, models, and code are made publicly available
- Abstract(参考訳): Open Information Extraction (OIE) システムは、文の事実命題を一連の n-ary タプルに圧縮しようとする。
これらのタプルは、ナレッジベース作成、テキストエンテイメント、自然言語理解などの自然言語処理における下流タスクに役立ちます。
しかし、現在のoieデータセットはサイズと多様性の両方に制限がある。
QA-SRL 2.0データセットを大規模OIEデータセット(LSOIE)に変換することにより,新たなデータセットを導入する。
我々のLSOIEデータセットは、人間の注釈付きOIEデータセットの20倍の大きさです。
LSOIE 上でのベンチマーク OIE モデルの構築と評価を行い,タスクの今後の改善のためのベースラインを提供する。
LSOIEデータ、モデル、およびコードは公開されています
関連論文リスト
- ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - Leveraging Linguistically Enhanced Embeddings for Open Information Extraction [0.0]
オープン情報抽出(OIE)は自然言語処理における構造化予測タスクである
私たちは、OIE用のSeq2Seq PLMで言語機能を利用する最初の人です。
私たちの作業は、任意のニューラルなOIEアーキテクチャに対して、PLMと言語機能の両方から重要なパフォーマンス向上を提供することができます。
論文 参考訳(メタデータ) (2024-03-20T18:18:48Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - InstructIE: A Bilingual Instruction-based Information Extraction Dataset [44.65162892808696]
大きな言語モデルは、一般的な自然言語処理でうまく機能するが、その効果は情報抽出(IE)の亜最適である。
最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。
InstructIEは、12のドメインをカバーするバイリンガル命令ベースのIEデータセットである。
論文 参考訳(メタデータ) (2023-05-19T08:51:11Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。