論文の概要: Quantifying Synthesis and Fusion and their Impact on Machine Translation
- arxiv url: http://arxiv.org/abs/2205.03369v1
- Date: Fri, 6 May 2022 17:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:09:27.310252
- Title: Quantifying Synthesis and Fusion and their Impact on Machine Translation
- Title(参考訳): 合成と融合の定量化と機械翻訳への影響
- Authors: Arturo Oncevay and Duygu Ataman and Niels van Berkel and Barry Haddow
and Alexandra Birch and Johannes Bjerva
- Abstract要約: 自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
- 参考スコア(独自算出の注目度): 79.61874492642691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theoretical work in morphological typology offers the possibility of
measuring morphological diversity on a continuous scale. However, literature in
Natural Language Processing (NLP) typically labels a whole language with a
strict type of morphology, e.g. fusional or agglutinative. In this work, we
propose to reduce the rigidity of such claims, by quantifying morphological
typology at the word and segment level. We consider Payne (2017)'s approach to
classify morphology using two indices: synthesis (e.g. analytic to
polysynthetic) and fusion (agglutinative to fusional). For computing synthesis,
we test unsupervised and supervised morphological segmentation methods for
English, German and Turkish, whereas for fusion, we propose a semi-automatic
method using Spanish as a case study. Then, we analyse the relationship between
machine translation quality and the degree of synthesis and fusion at word
(nouns and verbs for English-Turkish, and verbs in English-Spanish) and segment
level (previous language pairs plus English-German in both directions). We
complement the word-level analysis with human evaluation, and overall, we
observe a consistent impact of both indexes on machine translation quality.
- Abstract(参考訳): 形態的タイポロジーにおける理論的研究は、連続的なスケールで形態的多様性を測定する可能性を提供する。
しかしながら、自然言語処理(NLP)の文献は一般的に、融合や凝集のような厳格な形態を持つ言語全体をラベル付けしている。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
We consider Payne (2017)'s approach to classification morphology using two indices: synthesis (例: analysis to polysynthetic) and fusion (agglutinative to fusional)。
合成の計算では,英語,ドイツ語,トルコ語の非教師なし・教師付き形態素分割法を試験する一方,融合ではスペイン語を用いた半自動手法を提案する。
そして,機械翻訳品質と単語の合成・融合度(英語・トルコ語の名詞・動詞,英語・スペイン語の動詞)とセグメントレベル(以前の言語対+英語・ドイツ語両方向)の関係を解析した。
単語レベル解析と人間の評価を補完し、全体として、両方の指標が機械翻訳品質に与える影響を一貫して観察する。
関連論文リスト
- Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Translating from Morphologically Complex Languages: A Paraphrase-Based
Approach [45.900339652085584]
形態的関連語間の相互関係を潜在的なパラフレーズとして扱い,単語,句,文レベルでのパラフレーズ化手法を用いて処理する。
マレー語から英語に翻訳された実験は、競合するアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-27T07:02:19Z) - How Suitable Are Subword Segmentation Strategies for Translating
Non-Concatenative Morphology? [26.71325671956197]
各種形態素現象のセグメンテーション戦略を評価するためのテストスイートを設計する。
形態学的に複雑な表面表現を解析・生成する学習は依然として困難である。
論文 参考訳(メタデータ) (2021-09-02T17:23:21Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。