論文の概要: ImPaKT: A Dataset for Open-Schema Knowledge Base Construction
- arxiv url: http://arxiv.org/abs/2212.10770v1
- Date: Wed, 21 Dec 2022 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:48:01.591780
- Title: ImPaKT: A Dataset for Open-Schema Knowledge Base Construction
- Title(参考訳): ImPaKT: オープンスキーマ知識ベース構築のためのデータセット
- Authors: Luke Vilnis, Zach Fisher, Bhargav Kanagal, Patrick Murray, Sumit
Sanghai
- Abstract要約: ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
- 参考スコア(独自算出の注目度): 10.073210304061966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have ushered in a golden age of semantic parsing. The
seq2seq paradigm allows for open-schema and abstractive attribute and relation
extraction given only small amounts of finetuning data. Language model
pretraining has simultaneously enabled great strides in natural language
inference, reasoning about entailment and implication in free text. These
advances motivate us to construct ImPaKT, a dataset for open-schema information
extraction, consisting of around 2500 text snippets from the C4 corpus, in the
shopping domain (product buying guides), professionally annotated with
extracted attributes, types, attribute summaries (attribute schema discovery
from idiosyncratic text), many-to-one relations between compound and atomic
attributes, and implication relations. We release this data in hope that it
will be useful in fine tuning semantic parsers for information extraction and
knowledge base construction across a variety of domains. We evaluate the power
of this approach by fine-tuning the open source UL2 language model on a subset
of the dataset, extracting a set of implication relations from a corpus of
product buying guides, and conducting human evaluations of the resulting
predictions.
- Abstract(参考訳): 大規模言語モデルはセマンティック構文解析の黄金時代を迎えている。
seq2seqパラダイムは、少ない量の微調整データしか与えないオープンスキーマと抽象属性と関係抽出を可能にする。
言語モデルの事前学習は、自然言語推論、含意の推論、自由テキストの含意において、同時に大きな進歩をもたらした。
これらの進歩は、ショッピングドメイン(製品購入ガイド)において、C4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットであるImPaKTの構築、抽出属性、タイプ、属性要約(慣用的テキストからの属性スキーマ発見)、複合属性と原子属性の多対一関係、含意関係の構築を動機付けます。
我々は、様々なドメインにわたる情報抽出および知識ベース構築のためのセマンティックパーサの微調整に有用であることを期待して、このデータをリリースする。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
関連論文リスト
- FabricQA-Extractor: A Question Answering System to Extract Information from Documents using Natural Language Questions [4.961045761391367]
可読性モデルを読み取ると、短いテキストを渡せば自然言語で表される質問に答える。
本稿では,リレーショナル構造に関する知識を活用して抽出品質を向上させるリレーショナルコヒーレンス(Relation Coherence)というモデルを提案する。
リレーショナルコヒーレンスによって抽出性能が向上し,大規模データセット上でFabricQA-Extractorが評価されることを示す。
論文 参考訳(メタデータ) (2024-08-17T15:16:54Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Syntactic Multi-view Learning for Open Information Extraction [26.1066324477346]
Open Information extract (OpenIE) は、オープンドメインの文から抽出することを目的としている。
本稿では,単語レベルのグラフに構成木と依存性木の両方をモデル化する。
論文 参考訳(メタデータ) (2022-12-05T07:15:41Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。