論文の概要: Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text
- arxiv url: http://arxiv.org/abs/2210.06990v3
- Date: Sun, 30 Apr 2023 21:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:31:11.689069
- Title: Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text
- Title(参考訳): コード変換エジプト英語テキストのニューラルマシン翻訳のためのセグメンテーション手法の検討
- Authors: Marwa Gaser, Manuel Mager, Injy Hamed, Nizar Habash, Slim Abdennadher
and Ngoc Thang Vu
- Abstract要約: 本研究では,機械翻訳(MT)の性能評価において,異なるセグメンテーション手法の有効性について検討する。
符号化されたアラビア語-英語から英語へのMT実験を行った。
MTに使用するセグメンテーション設定の選択は,データサイズに大きく依存していることが判明した。
- 参考スコア(独自算出の注目度): 29.95141309131595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sparsity is one of the main challenges posed by code-switching (CS),
which is further exacerbated in the case of morphologically rich languages. For
the task of machine translation (MT), morphological segmentation has proven
successful in alleviating data sparsity in monolingual contexts; however, it
has not been investigated for CS settings. In this paper, we study the
effectiveness of different segmentation approaches on MT performance, covering
morphology-based and frequency-based segmentation techniques. We experiment on
MT from code-switched Arabic-English to English. We provide detailed analysis,
examining a variety of conditions, such as data size and sentences with
different degrees of CS. Empirical results show that morphology-aware
segmenters perform the best in segmentation tasks but under-perform in MT.
Nevertheless, we find that the choice of the segmentation setup to use for MT
is highly dependent on the data size. For extreme low-resource scenarios, a
combination of frequency and morphology-based segmentations is shown to perform
the best. For more resourced settings, such a combination does not bring
significant improvements over the use of frequency-based segmentation.
- Abstract(参考訳): データ空間はコードスイッチング(CS)によってもたらされる主な課題の1つであり、形態的にリッチな言語ではさらに悪化している。
機械翻訳 (MT) の課題として, 単言語文脈におけるデータ空間の分散を緩和する形態的セグメンテーションが証明されているが, CS設定については検討されていない。
本稿では,形態素と周波数に基づくセグメンテーション手法を網羅し,異なるセグメンテーション手法がMT性能に与える影響について検討する。
アラビア語から英語へのコードスイッチによるmt実験を行った。
データサイズやcsの程度が異なる文など,さまざまな条件を調べることで,詳細な分析を行う。
実験の結果, 形態素認識セグメンタはセグメンテーションタスクでは最良であるが, MTでは低性能であることがわかったが, MTで使用するセグメンテーション設定の選択はデータサイズに大きく依存していることがわかった。
極端に低リソースなシナリオでは、周波数と形態素に基づくセグメンテーションの組み合わせが最善であることを示す。
リソースの豊富な設定では、このような組み合わせは周波数ベースのセグメンテーションよりも大きな改善をもたらすことはない。
関連論文リスト
- TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages [38.5427201289742]
4つの多義語に対する教師付きおよび教師なし形態素分割法について検討した。
機械翻訳の入力としてBPE(Byte-Pair s)に対してモルフォロジーにインスパイアされたセグメンテーション法を比較する。
我々は,Nahuatlを除くすべての言語対に対して,教師なし形態素分割アルゴリズムがBPEを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:27:20Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Canonical and Surface Morphological Segmentation for Nguni Languages [6.805575417034369]
本稿では,形態区分の監督モデルと監督モデルについて検討する。
曲面セグメンテーションのための正規分割と条件ランダムフィールド(CRF)のためのシーケンス・トゥ・シークエンスモデルをトレーニングします。
トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。
教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。
論文 参考訳(メタデータ) (2021-04-01T21:06:51Z) - The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation [0.6091702876917281]
本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
論文 参考訳(メタデータ) (2021-03-20T14:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。