論文の概要: Data Augmentation for Neural Machine Translation using Generative
Language Model
- arxiv url: http://arxiv.org/abs/2307.16833v2
- Date: Mon, 13 Nov 2023 13:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:49:24.281420
- Title: Data Augmentation for Neural Machine Translation using Generative
Language Model
- Title(参考訳): 生成言語モデルを用いたニューラルマシン翻訳のためのデータ拡張
- Authors: Seokjin Oh, Su Ah Lee and Woohwan Jung
- Abstract要約: 大規模並列コーパスの不足は、Neural Machine Translationの主要なボトルネックとなっている。
データ拡張(Data augmentation)は、新しいデータを集める代わりに合成データを生成することによって、データハングリーモデルの性能を向上させる技術である。
本稿では,ChatGPTなどの大規模言語モデルを活用した,プロンプトベースのデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 1.5500145658862499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid growth in model architecture, the scarcity of large
parallel corpora remains the main bottleneck in Neural Machine Translation.
Data augmentation is a technique that enhances the performance of data-hungry
models by generating synthetic data instead of collecting new ones. We explore
prompt-based data augmentation approaches that leverage large-scale language
models such as ChatGPT. To create a synthetic parallel corpus, we compare 3
methods using different prompts. We employ two assessment metrics to measure
the diversity of the generated synthetic data. This approach requires no
further model training cost, which is mandatory in other augmentation methods
like back-translation. The proposed method improves the unaugmented baseline by
0.68 BLEU score.
- Abstract(参考訳): モデルアーキテクチャの急速な成長にもかかわらず、大きな並列コーパスの不足はニューラルマシン翻訳の主要なボトルネックである。
データ拡張(Data augmentation)は、新しいデータを集める代わりに合成データを生成することによって、データハングリーモデルの性能を向上させる技術である。
chatgptのような大規模言語モデルを活用したプロンプトベースのデータ拡張手法について検討する。
合成並列コーパスを作成するために,異なるプロンプトを用いて3つの手法を比較する。
生成した合成データの多様性を測定するために2つの評価指標を用いる。
このアプローチは、バックトランスレーションのような他の拡張メソッドで必須となる、さらなるモデルトレーニングコストを必要としない。
提案手法では, ベースラインを0.68 bleuスコアで改善する。
関連論文リスト
- BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation [71.46236155101032]
本研究では,ベースモデルの多様性とインストラクション学習モデルの品質を組み合わせた合成データ生成手法であるBase-Refineを提案する。
BARE生成データによる微調整は, GSM8Kの命令のみのデータよりも101%, RAFTのSOTA法より18.4%向上することを示す。
論文 参考訳(メタデータ) (2025-02-03T00:12:40Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。
提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。
提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-12-06T23:36:36Z) - GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis [21.210982054134686]
テキストからの音声音声と音声による3Dジェスチャーの同時合成手法は,新しい,新たな分野である。
既存の手法は、すべての構成モダリティからの並列データに基づいて訓練される。
学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:22:19Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Transformers as Neural Augmentors: Class Conditional Sentence Generation
via Variational Bayes [0.0]
本稿では,変分オートエンコーダとエンコーダデコーダトランスモデルを組み合わせたニューラルネットワーク拡張手法を提案する。
入力文を符号化・復号化しながら,そのクラス条件で入力言語の構文的・意味的表現をキャプチャする。
本モデルでは,計算能力の少ない他のデータ拡張手法と比較して,現行モデルの性能を向上する。
論文 参考訳(メタデータ) (2022-05-19T08:42:33Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。