論文の概要: ImPaKT: A Dataset for Open-Schema Knowledge Base Construction
- arxiv url: http://arxiv.org/abs/2212.10770v1
- Date: Wed, 21 Dec 2022 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:48:01.591780
- Title: ImPaKT: A Dataset for Open-Schema Knowledge Base Construction
- Title(参考訳): ImPaKT: オープンスキーマ知識ベース構築のためのデータセット
- Authors: Luke Vilnis, Zach Fisher, Bhargav Kanagal, Patrick Murray, Sumit
Sanghai
- Abstract要約: ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
- 参考スコア(独自算出の注目度): 10.073210304061966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have ushered in a golden age of semantic parsing. The
seq2seq paradigm allows for open-schema and abstractive attribute and relation
extraction given only small amounts of finetuning data. Language model
pretraining has simultaneously enabled great strides in natural language
inference, reasoning about entailment and implication in free text. These
advances motivate us to construct ImPaKT, a dataset for open-schema information
extraction, consisting of around 2500 text snippets from the C4 corpus, in the
shopping domain (product buying guides), professionally annotated with
extracted attributes, types, attribute summaries (attribute schema discovery
from idiosyncratic text), many-to-one relations between compound and atomic
attributes, and implication relations. We release this data in hope that it
will be useful in fine tuning semantic parsers for information extraction and
knowledge base construction across a variety of domains. We evaluate the power
of this approach by fine-tuning the open source UL2 language model on a subset
of the dataset, extracting a set of implication relations from a corpus of
product buying guides, and conducting human evaluations of the resulting
predictions.
- Abstract(参考訳): 大規模言語モデルはセマンティック構文解析の黄金時代を迎えている。
seq2seqパラダイムは、少ない量の微調整データしか与えないオープンスキーマと抽象属性と関係抽出を可能にする。
言語モデルの事前学習は、自然言語推論、含意の推論、自由テキストの含意において、同時に大きな進歩をもたらした。
これらの進歩は、ショッピングドメイン(製品購入ガイド)において、C4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットであるImPaKTの構築、抽出属性、タイプ、属性要約(慣用的テキストからの属性スキーマ発見)、複合属性と原子属性の多対一関係、含意関係の構築を動機付けます。
我々は、様々なドメインにわたる情報抽出および知識ベース構築のためのセマンティックパーサの微調整に有用であることを期待して、このデータをリリースする。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
関連論文リスト
- Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Syntactic Multi-view Learning for Open Information Extraction [26.1066324477346]
Open Information extract (OpenIE) は、オープンドメインの文から抽出することを目的としている。
本稿では,単語レベルのグラフに構成木と依存性木の両方をモデル化する。
論文 参考訳(メタデータ) (2022-12-05T07:15:41Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。