論文の概要: Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech
- arxiv url: http://arxiv.org/abs/2004.02077v1
- Date: Sun, 5 Apr 2020 02:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:45:35.947490
- Title: Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech
- Title(参考訳): データ-テキスト生成のための機械翻訳事前学習-チェコの事例研究
- Authors: Mihir Kale and Scott Roy
- Abstract要約: 非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
- 参考スコア(独自算出の注目度): 5.609443065827995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there is a large body of research studying deep learning methods for
text generation from structured data, almost all of it focuses purely on
English. In this paper, we study the effectiveness of machine translation based
pre-training for data-to-text generation in non-English languages. Since the
structured data is generally expressed in English, text generation into other
languages involves elements of translation, transliteration and copying -
elements already encoded in neural machine translation systems. Moreover, since
data-to-text corpora are typically small, this task can benefit greatly from
pre-training. Based on our experiments on Czech, a morphologically complex
language, we find that pre-training lets us train end-to-end models with
significantly improved performance, as judged by automatic metrics and human
evaluation. We also show that this approach enjoys several desirable
properties, including improved performance in low data scenarios and robustness
to unseen slot values.
- Abstract(参考訳): 構造化データからテキストを生成するための深層学習法を研究する研究は多数存在するが、ほとんどが英語に焦点をあてている。
本稿では,非英語言語におけるテキスト生成のための機械翻訳による事前学習の有効性について検討する。
構造化されたデータは一般に英語で表現されるため、他の言語へのテキスト生成には、神経機械翻訳システムで既にエンコードされている翻訳、翻訳、複製要素の要素が含まれる。
さらに、データ対テキストコーパスは通常小さいため、このタスクは事前トレーニングの恩恵を受ける可能性がある。
形態学的に複雑な言語であるチェコにおける我々の実験に基づいて、自動測定と人的評価によって判断されるように、事前学習によって、パフォーマンスを大幅に向上したエンドツーエンドモデルをトレーニングできることがわかった。
また,このアプローチは,低データシナリオのパフォーマンス向上やスロット値の取得が容易なロバスト性など,いくつかの望ましい特性を享受できることを示す。
関連論文リスト
- Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。