論文の概要: Variational Template Machine for Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2002.01127v2
- Date: Thu, 13 Feb 2020 09:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:58:43.833923
- Title: Variational Template Machine for Data-to-Text Generation
- Title(参考訳): データ-テキスト生成のための変分テンプレートマシン
- Authors: Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li
- Abstract要約: テンプレートのオープンセットは、フレーズ構築を豊かにし、様々な世代を実現するために不可欠である、と我々は主張する。
本稿では,ペアデータと非ペアデータから再利用可能な「テンプレート」を自動的に学習する問題について検討する。
データテーブルからテキスト記述を生成する新しい手法である変分テンプレートマシン(VTM)を提案する。
- 参考スコア(独自算出の注目度): 37.03488881357614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to generate descriptions from structured data organized in tables?
Existing approaches using neural encoder-decoder models often suffer from
lacking diversity. We claim that an open set of templates is crucial for
enriching the phrase constructions and realizing varied generations. Learning
such templates is prohibitive since it often requires a large paired <table,
description> corpus, which is seldom available. This paper explores the problem
of automatically learning reusable "templates" from paired and non-paired data.
We propose the variational template machine (VTM), a novel method to generate
text descriptions from data tables. Our contributions include: a) we carefully
devise a specific model architecture and losses to explicitly disentangle text
template and semantic content information, in the latent spaces, and b)we
utilize both small parallel data and large raw text without aligned tables to
enrich the template learning. Experiments on datasets from a variety of
different domains show that VTM is able to generate more diversely while
keeping a good fluency and quality.
- Abstract(参考訳): テーブルに整理された構造化データから記述を生成するには?
既存のニューラルエンコーダ-デコーダモデルを用いたアプローチは、しばしば多様性の欠如に苦しむ。
オープンなテンプレートセットはフレーズ構成を豊かにし、様々な世代を実現するために不可欠であると主張する。
このようなテンプレートを学習することは、しばしば大きなペアの<table, description>コーパスを必要とするため、禁止される。
本稿では,ペアデータとペアデータから再利用可能な「テンプレート」を自動的に学習する問題を検討する。
本稿では,データテーブルからテキスト記述を生成する新しい手法である変分テンプレートマシン(vtm)を提案する。
私たちの貢献には
a) 特定のモデルアーキテクチャと損失を慎重に考案し、テキストテンプレートとセマンティックコンテンツ情報を明確にアンタングルし、潜在空間に配置し、
b) テンプレート学習を充実させるために, テーブルを並べない小さな並列データと大きな原文を併用する。
さまざまなドメインのデータセットに関する実験によると、VTMはより多様な生成が可能であり、優れた流線型性と品質を維持している。
関連論文リスト
- "What is the value of {templates}?" Rethinking Document Information Extraction Datasets for LLMs [19.07429412219697]
K2Qは、KIEからベスポークテンプレートを多用したプロンプト応答形式に変換された5つのデータセットの集合である。
K2Q上の7つのベースライン生成モデルの性能をゼロショットプロンプトと経験的に比較した。
多様な複雑なKIE質問を作成すれば,VRDUモデルの性能と堅牢性が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-20T19:42:30Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - Modelling the semantics of text in complex document layouts using graph
transformer networks [0.0]
本稿では,文書の読取パターンを近似したモデルを提案し,テキストスパン毎にユニークな意味表現を出力する。
アーキテクチャは構造化されたテキストのグラフ表現に基づいており、文書間で意味的に類似した情報を検索できるだけでなく、生成した埋め込み空間が有用な意味情報をキャプチャすることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:49:06Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Extraction of Templates from Phrases Using Sequence Binary Decision
Diagrams [3.867363075280544]
本稿では、SeqBDD(Sequence Binary Decision Diagram)の緩和版を用いて、タグ付きテキストのみからテンプレートを抽出するための教師なしアプローチを提案する。
本論文の主な貢献はSeqBDD構築アルゴリズムの緩和形式であり、少量のデータから一般的な表現を作成できる。
実験の結果,ソーシャルメディアからの短いメッセージからコーパスやフレーズテンプレートから動詞+前置テンプレートをベースとしたタスクを高品質に抽出できることがわかった。
論文 参考訳(メタデータ) (2020-01-28T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。