論文の概要: DART: Open-Domain Structured Data Record to Text Generation
- arxiv url: http://arxiv.org/abs/2007.02871v2
- Date: Mon, 12 Apr 2021 14:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:27:13.835414
- Title: DART: Open-Domain Structured Data Record to Text Generation
- Title(参考訳): DART: テキスト生成のためのオープンドメイン構造化データ記録
- Authors: Linyong Nan, Dragomir Radev, Rui Zhang, Amrit Rau, Abhinand
Sivaprasad, Chiachun Hsieh, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav
Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad
Zaidi, Mutethia Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi
Victoria Lin, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani
- Abstract要約: 82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
- 参考スコア(独自算出の注目度): 91.23798751437835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present DART, an open domain structured DAta Record to Text generation
dataset with over 82k instances (DARTs). Data-to-Text annotations can be a
costly process, especially when dealing with tables which are the major source
of structured data and contain nontrivial structures. To this end, we propose a
procedure of extracting semantic triples from tables that encodes their
structures by exploiting the semantic dependencies among table headers and the
table title. Our dataset construction framework effectively merged
heterogeneous sources from open domain semantic parsing and dialogue-act-based
meaning representation tasks by utilizing techniques such as: tree ontology
annotation, question-answer pair to declarative sentence conversion, and
predicate unification, all with minimum post-editing. We present systematic
evaluation on DART as well as new state-of-the-art results on WebNLG 2017 to
show that DART (1) poses new challenges to existing data-to-text datasets and
(2) facilitates out-of-domain generalization. Our data and code can be found at
https://github.com/Yale-LILY/dart.
- Abstract(参考訳): オープンなドメイン構造を持つDAta Record to Text生成データセットであるDARTを,82k以上のインスタンス(DART)で紹介する。
data-to-textアノテーションは、特に構造化データの主要なソースであり、非自明な構造を含むテーブルを扱う場合、コストのかかるプロセスである。
そこで本研究では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,それらの構造をエンコードするテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは,木オントロジーアノテーション,質問応答対から宣言文への変換,述語統一といった手法を利用して,オープンドメインのセマンティックパーシングと対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
我々は、DARTの体系的な評価と、WebNLG 2017における新たな最先端結果を示し、DART(1)が既存のデータ・テキスト・データセットに新たな課題をもたらし、(2)ドメイン外の一般化を促進することを示す。
私たちのデータとコードはhttps://github.com/yale-lily/dartにあります。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - TAGA: Text-Attributed Graph Self-Supervised Learning by Synergizing Graph and Text Mutual Transformations [15.873944819608434]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化する。
本稿では,TAGの構造的・意味的次元を統合した,新たな自己教師型学習フレームワークであるText-And-Graph Multi-View Alignment(TAGA)を紹介する。
本フレームワークは,8つの実世界のデータセットを対象としたゼロショットおよび少数ショットシナリオにおいて,強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-27T03:40:16Z) - Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - Enhancing Open-Domain Table Question Answering via Syntax- and
Structure-aware Dense Retrieval [21.585255812861632]
オープンドメインのテーブル質問応答は、大量のテーブルから情報を検索して抽出することで、質問に対する回答を提供することを目的としている。
オープンドメインテーブルQAの既存の研究は、直接テキスト検索手法を採用するか、テーブル検索のための符号化層にのみテーブル構造を考慮する。
オープンドメインテーブルQAタスクに対する構文と構造を意識した検索手法を提案する。
論文 参考訳(メタデータ) (2023-09-19T10:40:09Z) - TransDocAnalyser: A Framework for Offline Semi-structured Handwritten
Document Analysis in the Legal Domain [3.5018563401895455]
最初の半構造化文書解析データセットを法域内に構築する。
このデータセットは、多種多様な手書きテキストと印刷テキストを組み合わせる。
本稿では,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T15:56:30Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - A Tale of Two Linkings: Dynamically Gating between Schema Linking and
Structural Linking for Text-to-SQL Parsing [25.81069211061945]
Text-to- semantic parsingでは、生成したsqlクエリの正しいエンティティを選択することは重要かつ困難である。
この課題に対処するための2つのリンクプロセス: 明示的なNLの言及をデータベースにリンクするスキーマリンクと、出力sqlのエンティティとデータベーススキーマの構造的関係をリンクする構造的リンク。
提案手法を2つのグラフニューラルネットワークに基づくセマンティクスとBERT表現と統合することにより,課題となるスパイダーデータセットのパース精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-09-30T17:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。