論文の概要: The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2103.11189v1
- Date: Sat, 20 Mar 2021 14:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:42:34.814451
- Title: The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation
- Title(参考訳): 低リソースニューラルマシン翻訳における形態素認識セグメンテーションの有効性
- Authors: Jonne S\"alev\"a and Constantine Lignos
- Abstract要約: 本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates the performance of several modern subword segmentation
methods in a low-resource neural machine translation setting. We compare
segmentations produced by applying BPE at the token or sentence level with
morphologically-based segmentations from LMVR and MORSEL. We evaluate
translation tasks between English and each of Nepali, Sinhala, and Kazakh, and
predict that using morphologically-based segmentation methods would lead to
better performance in this setting. However, comparing to BPE, we find that no
consistent and reliable differences emerge between the segmentation methods.
While morphologically-based methods outperform BPE in a few cases, what
performs best tends to vary across tasks, and the performance of segmentation
methods is often statistically indistinguishable.
- Abstract(参考訳): 本稿では,低リソースのニューラルマシン翻訳環境において,最新のサブワードセグメンテーション手法の性能を評価する。
トークンや文レベルでBPEを適用したセグメンテーションと,LMVRとMORSELのモルフォロジーに基づくセグメンテーションを比較した。
我々は,ネパール語,シンハラ語,カザフ語の各言語間の翻訳課題を評価し,形態素的なセグメンテーション手法を用いることで,この設定においてより良い性能が得られると予測した。
しかし,bpeと比較すると,セグメンテーション法の間に一貫性と信頼性の差はみられなかった。
形態的手法がBPEより優れているケースはいくつかあるが、最も優れた方法はタスクによって異なり、分節法の性能はしばしば統計的に区別できない。
関連論文リスト
- When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text [29.95141309131595]
本研究では,機械翻訳(MT)の性能評価において,異なるセグメンテーション手法の有効性について検討する。
符号化されたアラビア語-英語から英語へのMT実験を行った。
MTに使用するセグメンテーション設定の選択は,データサイズに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2022-10-11T23:20:12Z) - BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages [38.5427201289742]
4つの多義語に対する教師付きおよび教師なし形態素分割法について検討した。
機械翻訳の入力としてBPE(Byte-Pair s)に対してモルフォロジーにインスパイアされたセグメンテーション法を比較する。
我々は,Nahuatlを除くすべての言語対に対して,教師なし形態素分割アルゴリズムがBPEを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:27:20Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。