論文の概要: On the Difficulty of Translating Free-Order Case-Marking Languages
- arxiv url: http://arxiv.org/abs/2107.06055v1
- Date: Tue, 13 Jul 2021 13:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:45:58.366498
- Title: On the Difficulty of Translating Free-Order Case-Marking Languages
- Title(参考訳): 自由次ケースマーキング言語翻訳の難しさについて
- Authors: Arianna Bisazza, Ahmet \"Ust\"un, Stephan Sportel
- Abstract要約: 我々は、最先端のニューラルマシン翻訳モデル(NMT)により、自由順序のケースマーキング言語が翻訳困難であるかどうかを検討する。
ソース言語における単語順の柔軟性は、NMTの品質を非常に低下させるだけである。
中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合のままである。
- 参考スコア(独自算出の注目度): 2.9434930072968584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying factors that make certain languages harder to model than others
is essential to reach language equality in future Natural Language Processing
technologies. Free-order case-marking languages, such as Russian, Latin or
Tamil, have proved more challenging than fixed-order languages for the tasks of
syntactic parsing and subject-verb agreement prediction. In this work, we
investigate whether this class of languages is also more difficult to translate
by state-of-the-art Neural Machine Translation models (NMT). Using a variety of
synthetic languages and a newly introduced translation challenge set, we find
that word order flexibility in the source language only leads to a very small
loss of NMT quality, even though the core verb arguments become impossible to
disambiguate in sentences without semantic cues. The latter issue is indeed
solved by the addition of case marking. However, in medium- and low-resource
settings, the overall NMT quality of fixed-order languages remains unmatched.
- Abstract(参考訳): 将来の自然言語処理技術で言語平等に達するためには、特定の言語を他の言語よりもモデル化しにくくする要因を特定することが不可欠である。
ロシア語、ラテン語、タミル語のような自由順序のケースマーキング言語は、構文解析や主観的な合意予測のタスクにおいて、固定順序の言語よりも困難であることが証明されている。
本研究では,現在最先端のニューラルマシン翻訳モデル(NMT)により,この言語が翻訳が困難であるかどうかを考察する。
様々な合成言語と新たに導入された翻訳課題セットを用いて,基本動詞の引数が意味的手がかりのない文では曖昧になりつつも,ソース言語の単語順の柔軟性はNTT品質の低下にのみ寄与することがわかった。
後者の問題はケースマーキングの追加によって解決される。
しかし、中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合である。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering [17.166996956587155]
効果的な言語間移動の障害の1つは、単語順パターンにおける可変性である。
ユニバーサル依存の観点で定義した,新しい強力なリオーダー手法を提案する。
提案手法は,異なる言語ペアとモデルアーキテクチャに対して,強いベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-20T15:25:53Z) - CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine
Translation [31.18983138590214]
ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。
CODETは、12の異なる言語と851の異なるバリエーションを含む対照的な方言ベンチマークである。
我々は,大規模なMTモデルが方言の変種を効果的に翻訳する上で直面する課題を定量的に示す。
論文 参考訳(メタデータ) (2023-05-26T21:24:00Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。