論文の概要: Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation
- arxiv url: http://arxiv.org/abs/2305.07005v1
- Date: Thu, 11 May 2023 17:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:46:35.715023
- Title: Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation
- Title(参考訳): サブワードセグメンテーション機械翻訳:セグメンテーションとターゲット文生成の統合
- Authors: Francois Meyer, Jan Buys
- Abstract要約: サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
- 参考スコア(独自算出の注目度): 7.252933737829635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subword segmenters like BPE operate as a preprocessing step in neural machine
translation and other (conditional) language models. They are applied to
datasets before training, so translation or text generation quality relies on
the quality of segmentations. We propose a departure from this paradigm, called
subword segmental machine translation (SSMT). SSMT unifies subword segmentation
and MT in a single trainable model. It learns to segment target sentence words
while jointly learning to generate target sentences. To use SSMT during
inference we propose dynamic decoding, a text generation algorithm that adapts
segmentations as it generates translations. Experiments across 6 translation
directions show that SSMT improves chrF scores for morphologically rich
agglutinative languages. Gains are strongest in the very low-resource scenario.
SSMT also learns subwords that are closer to morphemes compared to baselines
and proves more robust on a test set constructed for evaluating morphological
compositional generalisation.
- Abstract(参考訳): BPEのようなサブワードセグメンタは、ニューラルマシン翻訳やその他の(条件付き)言語モデルにおける前処理ステップとして動作する。
トレーニング前にデータセットに適用されるので、翻訳やテキスト生成の品質はセグメンテーションの品質に依存します。
本稿では,このパラダイムからの脱却を,ssmt(subword segmental machine translation)と呼ぶ。
SSMTはサブワードセグメンテーションとMTを単一のトレーニング可能なモデルに統合する。
ターゲット文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
SSMTを推論時に使用するために,テキスト生成アルゴリズムである動的復号法を提案する。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
利益は、非常に低リソースのシナリオで最強です。
SSMTはまた、ベースラインと比較して形態素に近いサブワードを学習し、形態素合成の一般化を評価するために構築されたテストセット上でより堅牢であることを示す。
関連論文リスト
- TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text [29.95141309131595]
本研究では,機械翻訳(MT)の性能評価において,異なるセグメンテーション手法の有効性について検討する。
符号化されたアラビア語-英語から英語へのMT実験を行った。
MTに使用するセグメンテーション設定の選択は,データサイズに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2022-10-11T23:20:12Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。