論文の概要: Text Style Transfer Back-Translation
- arxiv url: http://arxiv.org/abs/2306.01318v1
- Date: Fri, 2 Jun 2023 07:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:23:48.406055
- Title: Text Style Transfer Back-Translation
- Title(参考訳): テキストスタイル転送バックトランスレーション
- Authors: Daimeng Wei, Zhanglin Wu, Hengchao Shang, Zongyao Li, Minghan Wang,
Jiaxin Guo, Xiaoyu Chen, Zhengzhe Yu, Hao Yang
- Abstract要約: Back Translationは、同様のスタイルを共有する入力の翻訳を改善する。
自然な入力では、BTはわずかに改善され、時には悪影響を及ぼすだけである。
本稿では,BTデータのソース側を変更するためにスタイル転送モデルを用いたテキストスタイル転送逆変換を提案する。
- 参考スコア(独自算出の注目度): 14.608570096595177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Back Translation (BT) is widely used in the field of machine translation, as
it has been proved effective for enhancing translation quality. However, BT
mainly improves the translation of inputs that share a similar style (to be
more specific, translation-like inputs), since the source side of BT data is
machine-translated. For natural inputs, BT brings only slight improvements and
sometimes even adverse effects. To address this issue, we propose Text Style
Transfer Back Translation (TST BT), which uses a style transfer model to modify
the source side of BT data. By making the style of source-side text more
natural, we aim to improve the translation of natural inputs. Our experiments
on various language pairs, including both high-resource and low-resource ones,
demonstrate that TST BT significantly improves translation performance against
popular BT benchmarks. In addition, TST BT is proved to be effective in domain
adaptation so this strategy can be regarded as a general data augmentation
method. Our training code and text style transfer model are open-sourced.
- Abstract(参考訳): Back Translation (BT) は機械翻訳の分野で広く使われており、翻訳品質の向上に有効であることが証明されている。
しかしBTは、BTデータのソース側が機械翻訳であるため、類似したスタイル(より具体的には、翻訳のような入力)を共有する入力の翻訳を主に改善する。
自然入力の場合、btはわずかな改善と時には悪影響だけをもたらす。
この問題に対処するため,BTデータのソース側を変更するためにスタイル転送モデルを用いたテキストスタイル転送バックトランスフォーメーション(TST BT)を提案する。
ソースサイドテキストのスタイルをより自然にすることで、自然入力の翻訳を改善することを目指している。
高リソースと低リソースの両方を含む様々な言語対の実験により、TST BTは一般的なBTベンチマークに対する翻訳性能を大幅に改善することを示した。
さらに、TST BTはドメイン適応に有効であることが証明され、この戦略は一般的なデータ拡張方法とみなすことができる。
トレーニングコードとテキストスタイルの転送モデルはオープンソースです。
関連論文リスト
- Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - Scaling Back-Translation with Domain Text Generation for Sign Language
Gloss Translation [36.40377483258876]
手話のグロス翻訳は、手話のグロスを音声のテキストに変換することを目的としている。
Back Translation (BT)は、ドメイン内の言語テキストを手話に翻訳することで、擬似並列データを生成する。
本稿では, Prompt ベースのドメインテキスト生成 (PGEN) 手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T14:25:08Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques [12.968557512440759]
ゼロショット翻訳にはいくつかの手法が提案されている。
音声翻訳データとテキスト翻訳データに基づいて訓練されたSTモデルを構築することにより,これらのアイデアが音声翻訳に適用できるかどうかを検討する。
これらの技術は制限されたSTデータを用いて数発のSTに適用され、ASRモデルから微調整されたSTモデルと比較して、直接のSTと+3.1のBLEUポイントに比べて最大+12.9のBLEUポイントの改善がなされた。
論文 参考訳(メタデータ) (2022-01-26T20:20:59Z) - On the Complementarity between Pre-Training and Back-Translation for
Neural Machine Translation [63.914940899327966]
事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。
本稿では,PTとBTの相補性について検討する。
我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2021-10-05T04:01:36Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Evaluating Low-Resource Machine Translation between Chinese and
Vietnamese with Back-Translation [32.25731930652532]
後方翻訳(BT)は広く使われ、ニューラルネットワーク翻訳(NMT)におけるデータ拡張の標準手法の1つとなっている。
ベトナム語、ベトナム語、中国語のNMTモデルと統計的機械翻訳(SMT)モデルの両方に対して、文字ベースおよび単語ベースの設定で合成データの異なるサイズの影響を評価し、比較する。
論文 参考訳(メタデータ) (2020-03-04T17:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。