論文の概要: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction
- arxiv url: http://arxiv.org/abs/2101.11177v1
- Date: Wed, 27 Jan 2021 02:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:50:02.061071
- Title: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction
- Title(参考訳): LSOIE: 教師付きオープン情報抽出のための大規模データセット
- Authors: Jacob Solawetz, Stefan Larson
- Abstract要約: 我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。
我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
- 参考スコア(独自算出の注目度): 0.9966318185310058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Information Extraction (OIE) systems seek to compress the factual
propositions of a sentence into a series of n-ary tuples. These tuples are
useful for downstream tasks in natural language processing like knowledge base
creation, textual entailment, and natural language understanding. However,
current OIE datasets are limited in both size and diversity. We introduce a new
dataset by converting the QA-SRL 2.0 dataset to a large-scale OIE dataset
(LSOIE). Our LSOIE dataset is 20 times larger than the next largest
human-annotated OIE dataset. We construct and evaluate several benchmark OIE
models on LSOIE, providing baselines for future improvements on the task. Our
LSOIE data, models, and code are made publicly available
- Abstract(参考訳): Open Information Extraction (OIE) システムは、文の事実命題を一連の n-ary タプルに圧縮しようとする。
これらのタプルは、ナレッジベース作成、テキストエンテイメント、自然言語理解などの自然言語処理における下流タスクに役立ちます。
しかし、現在のoieデータセットはサイズと多様性の両方に制限がある。
QA-SRL 2.0データセットを大規模OIEデータセット(LSOIE)に変換することにより,新たなデータセットを導入する。
我々のLSOIEデータセットは、人間の注釈付きOIEデータセットの20倍の大きさです。
LSOIE 上でのベンチマーク OIE モデルの構築と評価を行い,タスクの今後の改善のためのベースラインを提供する。
LSOIEデータ、モデル、およびコードは公開されています
関連論文リスト
- IEPile: Unearthing Large-Scale Schema-Based Information Extraction
Corpus [40.190368213538115]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Data Transformation to Construct a Dataset for Generating
Entity-Relationship Model from Natural Language [39.53954130028595]
ERモデルの手作業コストを削減するため,NL2ERMの課題に対処する手法が提案されている。
これらのアプローチは通常、厳格なルールに依存するルールベースのアプローチである。
ルールベースのアプローチよりも一般化が優れているにもかかわらず、大規模なデータセットが欠如しているため、ディープベースモデルはNL2ERMに欠けている。
論文 参考訳(メタデータ) (2023-12-21T09:45:13Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Benchmarking Large Language Models with Augmented Instructions for
Fine-grained Information Extraction [46.09887436555637]
本稿では,Large Language Models (LLMs) に適した微細なIEベンチマークデータセットを提案する。
本研究では,エンコーダ・デコーダモデル,特にT5およびFLAN-T5の広範な評価により,未知の情報型への一般化が期待できる。
論文 参考訳(メタデータ) (2023-10-08T09:41:18Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。