論文の概要: On the Difficulty of Translating Free-Order Case-Marking Languages
- arxiv url: http://arxiv.org/abs/2107.06055v1
- Date: Tue, 13 Jul 2021 13:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:45:58.366498
- Title: On the Difficulty of Translating Free-Order Case-Marking Languages
- Title(参考訳): 自由次ケースマーキング言語翻訳の難しさについて
- Authors: Arianna Bisazza, Ahmet \"Ust\"un, Stephan Sportel
- Abstract要約: 我々は、最先端のニューラルマシン翻訳モデル(NMT)により、自由順序のケースマーキング言語が翻訳困難であるかどうかを検討する。
ソース言語における単語順の柔軟性は、NMTの品質を非常に低下させるだけである。
中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合のままである。
- 参考スコア(独自算出の注目度): 2.9434930072968584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying factors that make certain languages harder to model than others
is essential to reach language equality in future Natural Language Processing
technologies. Free-order case-marking languages, such as Russian, Latin or
Tamil, have proved more challenging than fixed-order languages for the tasks of
syntactic parsing and subject-verb agreement prediction. In this work, we
investigate whether this class of languages is also more difficult to translate
by state-of-the-art Neural Machine Translation models (NMT). Using a variety of
synthetic languages and a newly introduced translation challenge set, we find
that word order flexibility in the source language only leads to a very small
loss of NMT quality, even though the core verb arguments become impossible to
disambiguate in sentences without semantic cues. The latter issue is indeed
solved by the addition of case marking. However, in medium- and low-resource
settings, the overall NMT quality of fixed-order languages remains unmatched.
- Abstract(参考訳): 将来の自然言語処理技術で言語平等に達するためには、特定の言語を他の言語よりもモデル化しにくくする要因を特定することが不可欠である。
ロシア語、ラテン語、タミル語のような自由順序のケースマーキング言語は、構文解析や主観的な合意予測のタスクにおいて、固定順序の言語よりも困難であることが証明されている。
本研究では,現在最先端のニューラルマシン翻訳モデル(NMT)により,この言語が翻訳が困難であるかどうかを考察する。
様々な合成言語と新たに導入された翻訳課題セットを用いて,基本動詞の引数が意味的手がかりのない文では曖昧になりつつも,ソース言語の単語順の柔軟性はNTT品質の低下にのみ寄与することがわかった。
後者の問題はケースマーキングの追加によって解決される。
しかし、中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合である。
関連論文リスト
- Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering [17.166996956587155]
効果的な言語間移動の障害の1つは、単語順パターンにおける可変性である。
ユニバーサル依存の観点で定義した,新しい強力なリオーダー手法を提案する。
提案手法は,異なる言語ペアとモデルアーキテクチャに対して,強いベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-20T15:25:53Z) - CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine
Translation [33.78309539037362]
ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。
データセットは、9つの異なる言語と852の異なるバリエーションを含む、対照的な弁証法ベンチマークである。
論文 参考訳(メタデータ) (2023-05-26T21:24:00Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。