論文の概要: Self-training from Self-memory in Data-to-text Generation
- arxiv url: http://arxiv.org/abs/2401.10567v1
- Date: Fri, 19 Jan 2024 09:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:18:13.112226
- Title: Self-training from Self-memory in Data-to-text Generation
- Title(参考訳): データ-テキスト生成における自己記憶からの自己学習
- Authors: Hoang-Thang Ta
- Abstract要約: 本稿では,データ・トゥ・テキスト・ジェネレーション(DTG)における自己記憶からの自己学習モデルを提案する。
データ・トゥ・テキスト(D2T)とテキスト・トゥ・データ(T2D)の2つのモデルにより、自己記憶の品質が検証される。
- 参考スコア(独自算出の注目度): 3.844398528249339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel training model, self-training from self-memory
(STSM) in data-to-text generation (DTG), allowing the model to self-train on
subsets, including self-memory as outputs inferred directly from the trained
models and/or the new data. The quality of self-memory is validated by two
models, data-to-text (D2T) and text-to-data (T2D), by two pre-defined
conditions: (1) the appearance of all source values in the outputs of the D2T
model and (2) the ability to convert back to source data in the outputs in the
T2D model. We utilize a greedy algorithm to generate shorter D2T outputs if
they contain all source values. Subsequently, we use the T2D model to confirm
that these outputs can capture input relationships by demonstrating their
capacity to convert text back into data. With 30% of the dataset, we can train
the D2T model with a competitive performance compared to full training in the
same setup. We experiment with our model on two datasets, E2E NLG and DART.
STSM offers the D2T model a generalization capability from its subset memory
while reducing training data volume. Ultimately, we anticipate that this paper
will contribute to continual learning solutions that adapt to new training
data, incorporating it as a form of self-memory in DTG tasks. The curated
dataset is publicly available at: https://github.com/hoangthangta/STSM.
- Abstract(参考訳): 本稿では,data-to-text generation(dtg)における自己メモリ(stsm)からの自己学習という新しい学習モデルを提案する。
データ・トゥ・テキスト(D2T)とテキスト・トゥ・データ(T2D)の2つのモデルにより,(1)D2Tモデルの出力における全てのソース値の出現,(2)T2Dモデルの出力におけるソースデータへの変換能力の2つの事前定義された条件によって,自己記憶の品質が検証される。
我々は、すべてのソース値を含む場合、greedyアルゴリズムを用いてより短いD2T出力を生成する。
次に、T2Dモデルを用いて、テキストをデータに変換する能力を示すことで、これらの出力が入力関係をキャプチャできることを確認する。
データセットの30%で、D2Tモデルを同じセットアップでの完全なトレーニングと比較して、競争力のあるパフォーマンスでトレーニングできます。
我々は,E2E NLGとDARTという2つのデータセットを用いて実験を行った。
STSMはD2Tモデルに、トレーニングデータ量を削減しつつ、サブセットメモリからの一般化機能を提供する。
最終的には,dtgタスクに自己記憶型として組み込むことにより,新たなトレーニングデータに適応する継続的学習ソリューションに寄与することを期待した。
キュレートされたデータセットは、https://github.com/hoangthangta/stsmで公開されている。
関連論文リスト
- Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Learning from Multiple Sources for Data-to-Text and Text-to-Data [16.080265665849527]
Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用なテキストに変換する2つのタスクである。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
変形型自動エンコーダモデルを導入し,その多様性を表現できるように,アンタングル型とコンテンツ変数を交互に構成する。
論文 参考訳(メタデータ) (2023-02-22T10:39:33Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Neural Pipeline for Zero-Shot Data-to-Text Generation [3.42658286826597]
本稿では,汎用的なテキストベース操作に基づいて訓練された一連のモジュールを用いて,単一項目記述を変換してテキストを生成することを提案する。
WebNLGとE2Eという2つの主要な3重テキストデータセットに関する実験により、ゼロショット設定でのRDFトリプルからのD2T生成が可能になった。
論文 参考訳(メタデータ) (2022-03-30T13:14:35Z) - Dual-Teacher Class-Incremental Learning With Data-Free Generative Replay [49.691610143011566]
クラスインクリメンタルラーニング(CIL)のための2つの新しい知識伝達手法を提案する。
まず,データフリーな生成リプレイ(DF-GR)を提案し,生成モデルからの合成サンプルを用いてCILの破滅的忘れを緩和する。
第2に,2人の教師から1人の生徒に知識蒸留を行うための2つの教員情報蒸留(DT-ID)を導入する。
論文 参考訳(メタデータ) (2021-06-17T22:13:15Z) - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural
Language Inference [3.42658286826597]
データ・トゥ・テキスト(D2T)の生成を評価する上での大きな課題は、生成されたテキストの意味的精度を測定することである。
我々は、自然言語推論(NLI)のために事前訓練されたニューラルネットワークモデルに基づいて、D2T生成の意味的精度を評価するための新しい指標を提案する。
近年の2つのD2Tデータセットに対する実験により, 誤ったシステム出力の同定において, 精度の高い測定値が得られた。
論文 参考訳(メタデータ) (2020-11-21T16:37:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z) - CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training [63.11444020743543]
グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
論文 参考訳(メタデータ) (2020-06-08T15:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。