論文の概要: Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator
- arxiv url: http://arxiv.org/abs/2207.00552v1
- Date: Fri, 1 Jul 2022 17:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:13:43.962653
- Title: Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator
- Title(参考訳): インドネシア語サブワードセパレータによるインドネシア語語彙の削減
- Authors: Mukhlis Amien, Feng Chong, Huang Heyan
- Abstract要約: 本稿では,インドネシア語をペア言語として用いたニューラルネットワーク翻訳システム(NMT)のユニークな単語問題に対処する戦略を提案する。
提案手法では,単語を語根に変換し,接尾辞を伴って意味や文脈を保持するために規則に基づく手法を用いる。
語彙の数は最大で57%まで減少し、英語からインドネシア語への翻訳では、この手法を使用しない同様のNMTシステムよりも最大5 BLEUポイントの改善が提供される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indonesian is an agglutinative language since it has a compounding process of
word-formation. Therefore, the translation model of this language requires a
mechanism that is even lower than the word level, referred to as the sub-word
level. This compounding process leads to a rare word problem since the number
of vocabulary explodes. We propose a strategy to address the unique word
problem of the neural machine translation (NMT) system, which uses Indonesian
as a pair language. Our approach uses a rule-based method to transform a word
into its roots and accompanied affixes to retain its meaning and context. Using
a rule-based algorithm has more advantages: it does not require corpus data but
only applies the standard Indonesian rules. Our experiments confirm that this
method is practical. It reduces the number of vocabulary significantly up to
57\%, and on the English to Indonesian translation, this strategy provides an
improvement of up to 5 BLEU points over a similar NMT system that does not use
this technique.
- Abstract(参考訳): インドネシア語は単語形成の複合過程を持つため、凝集言語である。
したがって、この言語の翻訳モデルは、サブワードレベルと呼ばれる単語レベルよりもさらに低いメカニズムを必要とする。
この混合過程は語彙の数が爆発するため、稀な単語問題を引き起こす。
本稿では,インドネシア語を対言語として使用するニューラルマシン翻訳(nmt)システムの一意な単語問題に対処する戦略を提案する。
提案手法では,単語を語根に変換し,接尾辞を伴って意味や文脈を保持するために規則に基づく手法を用いる。
コーパスデータを必要としないが、標準的なインドネシアのルールのみを適用する。
我々の実験は、この方法が実用的であることを確認した。
語彙の数は57 %まで大幅に減少し、英語からインドネシア語への翻訳では、この手法を使用しない同様のNMTシステムよりも最大5 BLEUポイントの改善が提供される。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文 参考訳(メタデータ) (2024-08-08T04:57:36Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。