論文の概要: Neural Machine Translation Data Generation and Augmentation using
ChatGPT
- arxiv url: http://arxiv.org/abs/2307.05779v1
- Date: Tue, 11 Jul 2023 20:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:09:18.196425
- Title: Neural Machine Translation Data Generation and Augmentation using
ChatGPT
- Title(参考訳): ChatGPTを用いたニューラル機械翻訳データ生成と拡張
- Authors: Wayne Yang, Garrett Nicolai
- Abstract要約: 手動並列コーパスの代替として,生成言語モデルを用いて生成した幻覚並列コーパスについて検討する。
実験では、出力の多様性の欠如にもかかわらず、幻覚データにより翻訳信号が改善された。
- 参考スコア(独自算出の注目度): 5.815623778585195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural models have revolutionized the field of machine translation, but
creating parallel corpora is expensive and time-consuming. We investigate an
alternative to manual parallel corpora - hallucinated parallel corpora created
by generative language models. Although these models are themselves trained on
parallel data, they can leverage a multilingual vector space to create data,
and may be able to supplement small manually-procured corpora. Our experiments
highlight two key findings - despite a lack of diversity in their output, the
hallucinated data improves the translation signal, even when the domain clashes
with the original dataset.
- Abstract(参考訳): ニューラルモデルは機械翻訳の分野に革命をもたらしたが、並列コーパスの作成は高価で時間がかかる。
手動並列コーパスの代替として,生成言語モデルを用いて生成した幻覚並列コーパスについて検討する。
これらのモデルは、それ自体は並列データに基づいてトレーニングされているが、多言語ベクトル空間を利用してデータを作成し、小さなコーパスを補うことができる。
出力の多様性の欠如にもかかわらず、幻覚データによって元のデータセットとドメインが衝突しても翻訳信号が改善される。
関連論文リスト
- Data Augmentation for Neural Machine Translation using Generative
Language Model [1.5500145658862499]
大規模並列コーパスの不足は、Neural Machine Translationの主要なボトルネックとなっている。
データ拡張(Data augmentation)は、新しいデータを集める代わりに合成データを生成することによって、データハングリーモデルの性能を向上させる技術である。
本稿では,ChatGPTなどの大規模言語モデルを活用した,プロンプトベースのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-07-26T02:12:58Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Synthesizing Monolingual Data for Neural Machine Translation [22.031658738184166]
ニューラルマシン翻訳(NMT)では、ターゲット言語の単言語データが通常、追加の訓練並列データを合成するために利用される。
ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
特定の領域における非常に小さな単言語データを利用した大規模合成並列データを生成する手法を提案する。
論文 参考訳(メタデータ) (2021-01-29T08:17:40Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。