論文の概要: Data-adaptive Transfer Learning for Translation: A Case Study in Haitian
and Jamaican
- arxiv url: http://arxiv.org/abs/2209.06295v1
- Date: Tue, 13 Sep 2022 20:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:16:22.487691
- Title: Data-adaptive Transfer Learning for Translation: A Case Study in Haitian
and Jamaican
- Title(参考訳): データ適応トランスファー学習による翻訳--ハイチとジャマイカを事例として
- Authors: Nathaniel R. Robinson, Cameron J. Hogan, Nancy Fulda and David R.
Mortensen
- Abstract要約: 転送の有効性は,学習データ量と言語間の関係と相関していることを示す。
規則に基づくフランス・ハイチの正書法・構文エンジンと音韻埋め込みの新しい手法を提案する。
非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチングは 6.63 BLEU 点の優位性をもたらす。
- 参考スコア(独自算出の注目度): 4.4096464238164295
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multilingual transfer techniques often improve low-resource machine
translation (MT). Many of these techniques are applied without considering data
characteristics. We show in the context of Haitian-to-English translation that
transfer effectiveness is correlated with amount of training data and
relationships between knowledge-sharing languages. Our experiments suggest that
for some languages beyond a threshold of authentic data, back-translation
augmentation methods are counterproductive, while cross-lingual transfer from a
sufficiently related language is preferred. We complement this finding by
contributing a rule-based French-Haitian orthographic and syntactic engine and
a novel method for phonological embedding. When used with multilingual
techniques, orthographic transformation makes statistically significant
improvements over conventional methods. And in very low-resource Jamaican MT,
code-switching with a transfer language for orthographic resemblance yields a
6.63 BLEU point advantage.
- Abstract(参考訳): マルチリンガル転送技術は、しばしば低リソース機械翻訳(MT)を改善する。
これらの技法の多くはデータ特性を考慮せずに適用される。
ハイチ語から英語への翻訳の文脈において、翻訳の有効性は学習データ量と知識共有言語間の関係と相関していることを示す。
実験の結果, 真正データ以上の言語では, バックトランスレーションの手法は非生産的であり, 十分に関連する言語からの言語間移動が望ましいことが示唆された。
この発見を補うために,ルールベースのフランス語-ハイチ語正書法と構文エンジンと,新しい音韻埋め込み法を提案する。
多言語技術を用いた場合、従来の手法よりも統計的に有意な改善がなされる。
非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチは 6.63 BLEU 点の利点をもたらす。
関連論文リスト
- Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for
Cross-Lingual Machine Reading Comprehension [32.37236167127796]
X-STAは言語間機械読解のための新しいアプローチである。
我々は注意深い教師を利用して、ソース言語の回答スパンをターゲットの回答出力空間に微妙に転送する。
改良されたクロスアテンションブロックとしてグラディエント・ディサンタングルド・ナレッジ・シェアリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T07:20:37Z) - Investigating Bias in Multilingual Language Models: Cross-Lingual
Transfer of Debiasing Techniques [3.9673530817103333]
脱バイアス技術の言語間移動は実現可能であるだけでなく、有望な結果をもたらす。
我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語にまたがる最高のテクニックであると同定した。
論文 参考訳(メタデータ) (2023-10-16T11:43:30Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Viewing Knowledge Transfer in Multilingual Machine Translation Through a
Representational Lens [15.283483438956264]
本稿では,言語間の表現的類似度を測定するRepresentational Transfer potential (RTP)を紹介する。
RTPは正と負の両方の転送(干渉)を計測できることを示し、RTPは翻訳品質の変化と強く相関していることを示した。
我々は,言語間で表現をより不変にするための補助的類似性損失を用いた新しい学習手法を開発した。
論文 参考訳(メタデータ) (2023-05-19T09:36:48Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。