論文の概要: Semi-Supervised Low-Resource Style Transfer of Indonesian Informal to
Formal Language with Iterative Forward-Translation
- arxiv url: http://arxiv.org/abs/2011.03286v2
- Date: Tue, 22 Dec 2020 17:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:49:08.707443
- Title: Semi-Supervised Low-Resource Style Transfer of Indonesian Informal to
Formal Language with Iterative Forward-Translation
- Title(参考訳): インドネシアのインフォーマル言語からフォーマル言語への半教師付き低リソーススタイル移行
- Authors: Haryo Akbarianto Wibowo, Tatag Aziz Prawiro, Muhammad Ihsan, Alham
Fikri Aji, Radityo Eko Prasojo, Rahmad Mahendra, Suci Fitriany
- Abstract要約: 現在のインドネシアのNLPモデルは一般的に標準のインドネシアのモデルを念頭に開発されている。
インドネシアの非公式な文と公式な文の並列文のデータセットを新たに構築する。
フレーズベースの機械翻訳手法はトランスフォーマーの手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.991032420878171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In its daily use, the Indonesian language is riddled with informality, that
is, deviations from the standard in terms of vocabulary, spelling, and word
order. On the other hand, current available Indonesian NLP models are typically
developed with the standard Indonesian in mind. In this work, we address a
style-transfer from informal to formal Indonesian as a low-resource machine
translation problem. We build a new dataset of parallel sentences of informal
Indonesian and its formal counterpart. We benchmark several strategies to
perform style transfer from informal to formal Indonesian. We also explore
augmenting the training set with artificial forward-translated data. Since we
are dealing with an extremely low-resource setting, we find that a phrase-based
machine translation approach outperforms the Transformer-based approach.
Alternatively, a pre-trained GPT-2 fined-tuned to this task performed equally
well but costs more computational resource. Our findings show a promising step
towards leveraging machine translation models for style transfer. Our code and
data are available in https://github.com/haryoa/stif-indonesia
- Abstract(参考訳): 日常的な用法では、インドネシア語は非公式性、すなわち語彙、綴り、語順の点で標準から逸脱している。
一方、現在のインドネシアのNLPモデルは標準のインドネシアのモデルを念頭に開発されている。
本研究では,インドネシア語からインドネシア語への形式変換を低リソース機械翻訳問題として扱う。
インドネシアの非公式な文と公式な文の並列文のデータセットを新たに構築する。
インドネシアの非公式なスタイル移行を行うためのいくつかの戦略をベンチマークする。
また,人工前方翻訳データによるトレーニングセットの強化についても検討する。
私たちは、非常に低リソースな設定を扱っているので、フレーズベースの機械翻訳アプローチは、トランスフォーマーベースのアプローチよりも優れています。
あるいは、訓練済みの GPT-2 をこのタスクに微調整し、等しく動作するが、計算資源のコストは高い。
この結果から, 機械翻訳モデルをスタイル変換に活用するための有望なステップが示唆された。
私たちのコードとデータはhttps://github.com/haryoa/stif-indonesiaで利用可能です。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - LEAPT: Learning Adaptive Prefix-to-prefix Translation For Simultaneous
Machine Translation [6.411228564798412]
機械翻訳は、多くのライブシナリオで有用であるが、精度とレイテンシのトレードオフのため非常に難しい。
LEAPTと呼ばれる新しい適応型トレーニングポリシーを提案し、それによって機械翻訳モデルがソースプレフィックスの翻訳方法を学習し、将来の文脈を活用することができる。
論文 参考訳(メタデータ) (2023-03-21T11:17:37Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Synthetic Source Language Augmentation for Colloquial Neural Machine
Translation [3.303435360096988]
youtube と twitter から収集した新しいインドネシア英語テストセットを開発した。
インドネシア語正規語のソースに合成スタイル拡張を行い、ベースラインのId-Enモデルを改善することを示す。
論文 参考訳(メタデータ) (2020-12-30T14:52:15Z) - Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets [1.859931123372708]
本稿では,低リソース言語を対象としたベンチマークデータセットの自動生成手法を提案する。
第2に,フィリピンの資源不足を緩和するため,ELECTRA技術に基づく事前学習型トランスフォーマを新たに作成する。
第3に,低データ領域で動作する場合の真の性能に光を当てるために,転送学習手法の分析を行う。
論文 参考訳(メタデータ) (2020-10-22T10:09:10Z) - Semi-supervised Formality Style Transfer using Language Model
Discriminator and Mutual Information Maximization [52.867459839641526]
フォーマル・スタイル・トランスファー(英: Formality style transfer)とは、非公式な文を文法的に正しい形式文に変換するタスクである。
本稿では,言語モデルに基づく識別器を用いて,文が形式的である確率を最大化する半教師付き形式表現スタイル転送モデルを提案する。
実験の結果,我々のモデルは,自動計測と人的判断の両面で,従来の最先端のベースラインを著しく上回りました。
論文 参考訳(メタデータ) (2020-10-10T21:05:56Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。