論文の概要: Learning from Multiple Sources for Data-to-Text and Text-to-Data
- arxiv url: http://arxiv.org/abs/2302.11269v1
- Date: Wed, 22 Feb 2023 10:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:30:14.032918
- Title: Learning from Multiple Sources for Data-to-Text and Text-to-Data
- Title(参考訳): データ・ツー・テキスト・データのための複数ソースからの学習
- Authors: Song Duong, Alberto Lumbreras, Mike Gartrell, Patrick Gallinari
- Abstract要約: Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用なテキストに変換する2つのタスクである。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
変形型自動エンコーダモデルを導入し,その多様性を表現できるように,アンタングル型とコンテンツ変数を交互に構成する。
- 参考スコア(独自算出の注目度): 16.080265665849527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-to-text (D2T) and text-to-data (T2D) are dual tasks that convert
structured data, such as graphs or tables into fluent text, and vice versa.
These tasks are usually handled separately and use corpora extracted from a
single source. Current systems leverage pre-trained language models fine-tuned
on D2T or T2D tasks. This approach has two main limitations: first, a separate
system has to be tuned for each task and source; second, learning is limited by
the scarcity of available corpora. This paper considers a more general scenario
where data are available from multiple heterogeneous sources. Each source, with
its specific data format and semantic domain, provides a non-parallel corpus of
text and structured data. We introduce a variational auto-encoder model with
disentangled style and content variables that allows us to represent the
diversity that stems from multiple sources of text and data. Our model is
designed to handle the tasks of D2T and T2D jointly. We evaluate our model on
several datasets, and show that by learning from multiple sources, our model
closes the performance gap with its supervised single-source counterpart and
outperforms it in some cases.
- Abstract(参考訳): Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用する2つのタスクである。
これらのタスクは通常別々に処理され、単一のソースから抽出されたコーパスを使用する。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
本稿では,複数の異種ソースからデータが得られる,より一般的なシナリオについて考察する。
各ソースは、特定のデータフォーマットとセマンティックドメインを持ち、テキストと構造化データの非並列コーパスを提供する。
テキストやデータの複数のソースから派生した多様性を表現できる,アンタングル型スタイルとコンテンツ変数を備えた変分自動エンコーダモデルを提案する。
我々のモデルはD2TとT2Dのタスクを共同で扱うように設計されている。
複数のデータセットでモデルを評価し,複数のソースから学習することで,教師付き単一ソースモデルによるパフォーマンスギャップを解消し,場合によってはそれを上回っていることを示す。
関連論文リスト
- Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Self-training from Self-memory in Data-to-text Generation [3.844398528249339]
本稿では,データ・トゥ・テキスト・ジェネレーション(DTG)における自己記憶からの自己学習モデルを提案する。
データ・トゥ・テキスト(D2T)とテキスト・トゥ・データ(T2D)の2つのモデルにより、自己記憶の品質が検証される。
論文 参考訳(メタデータ) (2024-01-19T09:13:28Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training [63.11444020743543]
グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
論文 参考訳(メタデータ) (2020-06-08T15:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。