論文の概要: On Romanization for Model Transfer Between Scripts in Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2009.14824v1
- Date: Wed, 30 Sep 2020 17:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:36:59.280584
- Title: On Romanization for Model Transfer Between Scripts in Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳におけるスクリプト間のモデル伝達のローマ化について
- Authors: Chantal Amrhein and Rico Sennrich
- Abstract要約: ローマン化は情報損失を伴い,より単純な語彙移動法よりも必ずしも優れているわけではないことを示す。
我々はロマン化を目標側に拡張し、単純なデロマン化モデルと組み合わせれば、これが成功戦略であることを示す。
- 参考スコア(独自算出の注目度): 42.77140426679383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is a popular strategy to improve the quality of
low-resource machine translation. For an optimal transfer of the embedding
layer, the child and parent model should share a substantial part of the
vocabulary. This is not the case when transferring to languages with a
different script. We explore the benefit of romanization in this scenario. Our
results show that romanization entails information loss and is thus not always
superior to simpler vocabulary transfer methods, but can improve the transfer
between related languages with different scripts. We compare two romanization
tools and find that they exhibit different degrees of information loss, which
affects translation quality. Finally, we extend romanization to the target
side, showing that this can be a successful strategy when coupled with a simple
deromanization model.
- Abstract(参考訳): 転送学習は、低リソース機械翻訳の品質を改善するための一般的な戦略である。
埋め込み層を最適に転送するには、子と親モデルは語彙のかなりの部分を共有すべきである。
異なるスクリプトを持つ言語に転送する場合は、そうではない。
このシナリオでロマン化の利点を探求する。
以上の結果から,ロマン化は情報損失を伴い,より単純な語彙変換法よりも必ずしも優れているとは限りませんが,異なるスクリプトを持つ関連言語間の転送を改善することが可能です。
2つのローマン化ツールを比較し,翻訳品質に影響を及ぼす情報損失の程度が異なることを示した。
最後に,ロマン化を対象側に拡張することにより,単純なデロマン化モデルと組み合わせることで,この戦略が成功することを示す。
関連論文リスト
- Unknown Script: Impact of Script on Cross-Lingual Transfer [2.5398014196797605]
言語間移動は、言語間で知識を伝達する効果的な方法となっている。
対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。
この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:48:01Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Oolong: Investigating What Makes Transfer Learning Hard with Controlled
Studies [21.350999136803843]
GLUEベンチマークの言語を体系的に変換し、言語間変動の1軸を一度に変更する。
モデルが構文的変化から大きく回復することはできるが,語彙的誤りから回復することは不可能である。
我々の実験は、言語移行シナリオを設計する際に研究者が最も注目すべき言語間移動の要因に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-24T19:00:39Z) - Few-shot Controllable Style Transfer for Low-Resource Settings: A Study
in Indian Languages [13.980482277351523]
スタイル転送は、その内容を保持しながら入力文をターゲットスタイルに書き換えるタスクである。
パラフレーズ間のスタイリスティックな差異をモデル化した新しい手法により,数ショットスタイルのトランスファーの最先端を推し進める。
本モデルでは,5言語にまたがる形式性伝達およびコード混合付加における性能と出力の多様性を2~3倍に向上する。
論文 参考訳(メタデータ) (2021-10-14T14:16:39Z) - Improving Zero-shot Cross-lingual Transfer between Closely Related
Languages by injecting Character-level Noise [26.33252528975464]
高資源言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきである。
文字レベルの雑音で高リソースの親言語のデータを増大させることで、近縁な品種間の言語間移動を改善するための、単純かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2021-09-14T15:38:08Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。