論文の概要: Curriculum Learning for Cross-Lingual Data-to-Text Generation With Noisy Data
- arxiv url: http://arxiv.org/abs/2412.13484v1
- Date: Wed, 18 Dec 2024 04:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:51.941882
- Title: Curriculum Learning for Cross-Lingual Data-to-Text Generation With Noisy Data
- Title(参考訳): 雑音データを用いた言語間データ-テキスト生成のためのカリキュラム学習
- Authors: Kancharla Aditya Hari, Manish Gupta, Vasudeva Varma,
- Abstract要約: 本稿では,言語間データ・テキスト生成システムの性能向上に有効な複数の基準を示す。
BLEUスコアは最大4ポイント向上し、11のインド語と2つのデータセットで平均5~15%向上した。
- 参考スコア(独自算出の注目度): 15.185738997851688
- License:
- Abstract: Curriculum learning has been used to improve the quality of text generation systems by ordering the training samples according to a particular schedule in various tasks. In the context of data-to-text generation (DTG), previous studies used various difficulty criteria to order the training samples for monolingual DTG. These criteria, however, do not generalize to the crosslingual variant of the problem and do not account for noisy data. We explore multiple criteria that can be used for improving the performance of cross-lingual DTG systems with noisy data using two curriculum schedules. Using the alignment score criterion for ordering samples and an annealing schedule to train the model, we show increase in BLEU score by up to 4 points, and improvements in faithfulness and coverage of generations by 5-15% on average across 11 Indian languages and English in 2 separate datasets. We make code and data publicly available
- Abstract(参考訳): 各種タスクにおいて、特定のスケジュールに従ってトレーニングサンプルを注文することで、テキスト生成システムの品質を向上させるために、カリキュラム学習が使用されている。
データ・トゥ・テキスト・ジェネレーション(DTG)の文脈において、従来の研究では、モノリンガルDTGのトレーニングサンプルを注文するために様々な難易度基準を使用していた。
しかしながら、これらの基準は問題の言語横断的な変種に一般化せず、ノイズの多いデータも考慮していない。
本稿では,2つのカリキュラムスケジュールを用いて,ノイズの多いデータを用いた言語間DTGシステムの性能向上に有効な複数の基準について検討する。
モデルトレーニングには,アライメントスコア基準とアライメントスコア基準を用いて,BLEUスコアを最大4ポイント増加させ,11言語と英語で平均5~15%向上させた。
私たちはコードとデータを公開します
関連論文リスト
- Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Test-Time Code-Switching for Cross-lingual Aspect Sentiment Triplet Extraction [12.269762062755492]
本稿では,バイリンガル学習フェーズと単言語テストタイム予測のギャップを埋めるために,TT-CSW(Test-Time Code-SWitching)フレームワークを提案する。
訓練中は、バイリンガルコード切替トレーニングデータに基づいて生成モデルを構築し、バイリンガル入力のためのバイリンガルASTE三重項を生成する。
テスト段階では、テスト時間拡張のためにアライメントベースのコードスイッチング技術を使用します。
論文 参考訳(メタデータ) (2025-01-24T00:00:51Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。