論文の概要: An Analysis of BPE Vocabulary Trimming in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2404.00397v1
- Date: Sat, 30 Mar 2024 15:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:59:36.731316
- Title: An Analysis of BPE Vocabulary Trimming in Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳におけるBPE語彙トリミングの解析
- Authors: Marco Cognetta, Tatsuya Hiraoka, Naoaki Okazaki, Rico Sennrich, Yuval Pinter,
- Abstract要約: 語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
- 参考スコア(独自算出の注目度): 56.383793805299234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore threshold vocabulary trimming in Byte-Pair Encoding subword tokenization, a postprocessing step that replaces rare subwords with their component subwords. The technique is available in popular tokenization libraries but has not been subjected to rigorous scientific scrutiny. While the removal of rare subwords is suggested as best practice in machine translation implementations, both as a means to reduce model size and for improving model performance through robustness, our experiments indicate that, across a large space of hyperparameter settings, vocabulary trimming fails to improve performance, and is even prone to incurring heavy degradation.
- Abstract(参考訳): 本稿では,レアサブワードをコンポーネントサブワードに置き換える後処理であるByte-Pair Encoding subword tokenizationにおけるしきい値ボキャブラリトリミングについて検討する。
この技術は一般的なトークン化ライブラリで利用できるが、厳密な科学的調査の対象にはなっていない。
モデルサイズの削減とロバスト性によるモデル性能向上の両面から, 機械翻訳実装におけるレアサブワードの除去がベストプラクティスとして提案されているが, 実験により, ハイパーパラメータ設定の広い領域において, 語彙トリミングが性能向上に失敗し, 大幅な劣化を招きかねないことが示唆された。
関連論文リスト
- Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT [59.245414547751636]
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
論文 参考訳(メタデータ) (2024-02-19T15:04:53Z) - Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Frequency-Aware Contrastive Learning for Neural Machine Translation [24.336356651877388]
低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T10:10:10Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Adversarial Subword Regularization for Robust Neural Machine Translation [23.968624881678913]
さまざまなサブワードセグメンテーションをニューラルネットワーク翻訳(NMT)モデルに公開することで、機械翻訳の堅牢性が向上することがしばしばある。
本稿では,訓練中の勾配信号が多種多様なサブワードセグメンテーションの代替基準となるかどうかを検討するために,ADVSR(adversarial subword regularization)を提案する。
論文 参考訳(メタデータ) (2020-04-29T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。