論文の概要: WDV: A Broad Data Verbalisation Dataset Built from Wikidata
- arxiv url: http://arxiv.org/abs/2205.02627v1
- Date: Thu, 5 May 2022 13:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 23:16:00.205087
- Title: WDV: A Broad Data Verbalisation Dataset Built from Wikidata
- Title(参考訳): WDV:Wikidataから構築された、幅広いデータバーバリゼーションデータセット
- Authors: Gabriel Amaral, Odinaldo Rodrigues, Elena Simperl
- Abstract要約: 言語知識グラフ(英語: Verbalising Knowledge Graph, KG)は、主語、述語、および対象からなる相互接続された三元的クレームをテキストに変換することに焦点を当てたデータである。
ウィキデータから構築された大規模なKGクレーム言語化データセットであるWDVを提案する。
また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。
- 参考スコア(独自算出の注目度): 5.161088104035106
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data verbalisation is a task of great importance in the current field of
natural language processing, as there is great benefit in the transformation of
our abundant structured and semi-structured data into human-readable formats.
Verbalising Knowledge Graph (KG) data focuses on converting interconnected
triple-based claims, formed of subject, predicate, and object, into text.
Although KG verbalisation datasets exist for some KGs, there are still gaps in
their fitness for use in many scenarios. This is especially true for Wikidata,
where available datasets either loosely couple claim sets with textual
information or heavily focus on predicates around biographies, cities, and
countries. To address these gaps, we propose WDV, a large KG claim
verbalisation dataset built from Wikidata, with a tight coupling between
triples and text, covering a wide variety of entities and predicates. We also
evaluate the quality of our verbalisations through a reusable workflow for
measuring human-centred fluency and adequacy scores. Our data and code are
openly available in the hopes of furthering research towards KG verbalisation.
- Abstract(参考訳): データ言語化は、自然言語処理の現在の分野において非常に重要なタスクであり、豊富な構造化された半構造化されたデータから可読なフォーマットへの変換には大きなメリットがあります。
verbalising knowledge graph (kg) のデータは、主題、述語、オブジェクトからなる相互接続されたトリプルベースクレームをテキストに変換することに重点を置いている。
KG動詞化データセットはいくつかのKGに対して存在するが、多くのシナリオで使用するための適合性にはまだギャップがある。
これはWikidataにとって特に当てはまります。利用可能なデータセットは、テキスト情報とクレームセットを疎結合するか、伝記や都市、国に関する述語に重点を置いています。
これらのギャップに対処するために、ウィキデータから構築された大きなkgクレームの言語化データセットであるwdvを提案し、三重項とテキストを密結合し、さまざまなエンティティと述語をカバーする。
また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。
我々のデータとコードは、KG言語化研究をさらに進めるために、公開されています。
関連論文リスト
- Knowledge Graphs Querying [4.548471481431569]
我々は、KGクエリのために開発された様々な学際的なトピックと概念を統一することを目的としている。
KGとクエリ埋め込み、マルチモーダルKG、KG-QAの最近の進歩は、ディープラーニング、IR、NLP、コンピュータビジョンドメインから来ている。
論文 参考訳(メタデータ) (2023-05-23T19:32:42Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。