Fugu-MT 論文翻訳(概要): LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction

論文の概要: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction

arxiv url: http://arxiv.org/abs/2101.11177v1
Date: Wed, 27 Jan 2021 02:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-01 19:50:02.061071
Title: LSOIE: A Large-Scale Dataset for Supervised Open Information Extraction
Title（参考訳）: LSOIE: 教師付きオープン情報抽出のための大規模データセット
Authors: Jacob Solawetz, Stefan Larson
Abstract要約: 我々は、QA-SRL 2.0データセットを大規模オープン情報抽出(OIE)データセット(LSOIE)に変換することにより、新しいデータセットを導入する。我々のLSOIEデータセットは、次の大きな人間アノテーションOIEデータセット(LSOIE)の20倍の大きさです。
参考スコア（独自算出の注目度）: 0.9966318185310058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open Information Extraction (OIE) systems seek to compress the factual propositions of a sentence into a series of n-ary tuples. These tuples are useful for downstream tasks in natural language processing like knowledge base creation, textual entailment, and natural language understanding. However, current OIE datasets are limited in both size and diversity. We introduce a new dataset by converting the QA-SRL 2.0 dataset to a large-scale OIE dataset (LSOIE). Our LSOIE dataset is 20 times larger than the next largest human-annotated OIE dataset. We construct and evaluate several benchmark OIE models on LSOIE, providing baselines for future improvements on the task. Our LSOIE data, models, and code are made publicly available
Abstract（参考訳）: Open Information Extraction (OIE) システムは、文の事実命題を一連の n-ary タプルに圧縮しようとする。これらのタプルは、ナレッジベース作成、テキストエンテイメント、自然言語理解などの自然言語処理における下流タスクに役立ちます。しかし、現在のoieデータセットはサイズと多様性の両方に制限がある。 QA-SRL 2.0データセットを大規模OIEデータセット(LSOIE)に変換することにより,新たなデータセットを導入する。我々のLSOIEデータセットは、人間の注釈付きOIEデータセットの20倍の大きさです。 LSOIE 上でのベンチマーク OIE モデルの構築と評価を行い,タスクの今後の改善のためのベースラインを提供する。 LSOIEデータ、モデル、およびコードは公開されています

関連論文リスト

Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文参考訳（メタデータ） (2024-05-08T12:24:52Z)
Leveraging Linguistically Enhanced Embeddings for Open Information Extraction [0.0]
オープン情報抽出(OIE)は自然言語処理における構造化予測タスクである私たちは、OIE用のSeq2Seq PLMで言語機能を利用する最初の人です。私たちの作業は、任意のニューラルなOIEアーキテクチャに対して、PLMと言語機能の両方から重要なパフォーマンス向上を提供することができます。
論文参考訳（メタデータ） (2024-03-20T18:18:48Z)
IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。 IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文参考訳（メタデータ） (2024-02-22T17:11:38Z)
Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文参考訳（メタデータ） (2023-12-29T14:25:22Z)
Instruct and Extract: Instruction Tuning for On-Demand Information Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。 InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。 InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文参考訳（メタデータ） (2023-10-24T17:54:25Z)
LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。 GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文参考訳（メタデータ） (2023-09-21T12:13:55Z)
InstructIE: A Bilingual Instruction-based Information Extraction Dataset [44.65162892808696]
大きな言語モデルは、一般的な自然言語処理でうまく機能するが、その効果は情報抽出(IE)の亜最適である。最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。 InstructIEは、12のドメインをカバーするバイリンガル命令ベースのIEデータセットである。
論文参考訳（メタデータ） (2023-05-19T08:51:11Z)
IELM: An Open Information Extraction Benchmark for Pre-Trained Language Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文参考訳（メタデータ） (2022-10-25T16:25:00Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。