論文の概要: BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages
- arxiv url: http://arxiv.org/abs/2203.08954v1
- Date: Wed, 16 Mar 2022 21:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 07:13:55.663595
- Title: BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages
- Title(参考訳): BPE対モルフォロジーセグメンテーション:4つの合成言語の機械翻訳を事例として
- Authors: Manuel Mager and Arturo Oncevay and Elisabeth Mager and Katharina Kann
and Ngoc Thang Vu
- Abstract要約: 4つの多義語に対する教師付きおよび教師なし形態素分割法について検討した。
機械翻訳の入力としてBPE(Byte-Pair s)に対してモルフォロジーにインスパイアされたセグメンテーション法を比較する。
我々は,Nahuatlを除くすべての言語対に対して,教師なし形態素分割アルゴリズムがBPEを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 38.5427201289742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphologically-rich polysynthetic languages present a challenge for NLP
systems due to data sparsity, and a common strategy to handle this issue is to
apply subword segmentation. We investigate a wide variety of supervised and
unsupervised morphological segmentation methods for four polysynthetic
languages: Nahuatl, Raramuri, Shipibo-Konibo, and Wixarika. Then, we compare
the morphologically inspired segmentation methods against Byte-Pair Encodings
(BPEs) as inputs for machine translation (MT) when translating to and from
Spanish. We show that for all language pairs except for Nahuatl, an
unsupervised morphological segmentation algorithm outperforms BPEs consistently
and that, although supervised methods achieve better segmentation scores, they
under-perform in MT challenges. Finally, we contribute two new morphological
segmentation datasets for Raramuri and Shipibo-Konibo, and a parallel corpus
for Raramuri--Spanish.
- Abstract(参考訳): モルフォロジーに富んだ多義語は、データ空間性に起因するNLPシステムの課題であり、この問題に対処するための一般的な戦略は、サブワードセグメンテーションを適用することである。
本研究では,nahuatl,raramuri,shipibo-konibo,wixarikaの4つの多合成言語について,教師なし・教師なし形態素セグメンテーション法について検討した。
次に,スペイン語への翻訳における機械翻訳(MT)の入力として,BPE(Byte-Pair Encodings)に対する形態的にインスパイアされたセグメンテーション手法を比較した。
教師なし形態素分割アルゴリズムは,Nahuatlを除くすべての言語対において,BPEよりも一貫して優れており,教師付き手法ではより優れたセグメンテーションスコアが得られるが,MT課題では低性能であることを示す。
最後に,raramuriとshipibo-koniboの2つの新しい形態素セグメンテーションデータセットと,raramuri- spanishの並列コーパスを提案する。
関連論文リスト
- A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T16:56:08Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text [29.95141309131595]
本研究では,機械翻訳(MT)の性能評価において,異なるセグメンテーション手法の有効性について検討する。
符号化されたアラビア語-英語から英語へのMT実験を行った。
MTに使用するセグメンテーション設定の選択は,データサイズに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2022-10-11T23:20:12Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - How Suitable Are Subword Segmentation Strategies for Translating
Non-Concatenative Morphology? [26.71325671956197]
各種形態素現象のセグメンテーション戦略を評価するためのテストスイートを設計する。
形態学的に複雑な表面表現を解析・生成する学習は依然として困難である。
論文 参考訳(メタデータ) (2021-09-02T17:23:21Z) - Canonical and Surface Morphological Segmentation for Nguni Languages [6.805575417034369]
本稿では,形態区分の監督モデルと監督モデルについて検討する。
曲面セグメンテーションのための正規分割と条件ランダムフィールド(CRF)のためのシーケンス・トゥ・シークエンスモデルをトレーニングします。
トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。
教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。
論文 参考訳(メタデータ) (2021-04-01T21:06:51Z) - The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation [0.6091702876917281]
本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
論文 参考訳(メタデータ) (2021-03-20T14:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。