論文の概要: What changes when you randomly choose BPE merge operations? Not much
- arxiv url: http://arxiv.org/abs/2305.03029v1
- Date: Thu, 4 May 2023 17:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:27:25.483404
- Title: What changes when you randomly choose BPE merge operations? Not much
- Title(参考訳): ランダムにBPEマージ操作を選択すると、どうなるか?
あまりない
- Authors: Jonne S\"alev\"a and Constantine Lignos
- Abstract要約: バイトペア符号化(BPE)の3つの単純なランダム化変異を導入する。
形態学的に豊かな言語への翻訳に焦点をあて、このタスクはサブワードの選択方法に敏感であるかもしれないと仮定する。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce three simple randomized variants of byte pair encoding (BPE) and
explore whether randomizing the selection of merge operations substantially
affects a downstream machine translation task. We focus on translation into
morphologically rich languages, hypothesizing that this task may show
sensitivity to the method of choosing subwords. Analysis using a Bayesian
linear model indicates that two of the variants perform nearly
indistinguishably compared to standard BPE while the other degrades performance
less than we anticipated. We conclude that although standard BPE is widely
used, there exists an interesting universe of potential variations on it worth
investigating. Our code is available at: https://github.com/bltlab/random-bpe.
- Abstract(参考訳): 本稿では,bpe(byte pair encoding)の3つの単純な変種を紹介し,マージ操作の選択が下流機械翻訳タスクに実質的に影響を及ぼすかどうかを検討する。
形態学的に豊かな言語への翻訳に焦点をあて、このタスクはサブワードの選択方法に敏感であるかもしれないと仮定する。
ベイズ線形モデルを用いて解析したところ、2つの変種は標準のBPEと比較してほぼ区別できない性能を示し、他方の変種は予想以上に性能を低下させる。
標準BPEは広く使われているが、調査する価値のある潜在的なバリエーションの興味深い宇宙が存在すると結論付けている。
私たちのコードは、https://github.com/bltlab/random-bpeで利用可能です。
関連論文リスト
- Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models [26.442558912559658]
Byte-Pair を用いた語彙適応手法の基本的な限界を示す。
(BPE)エキスパートドメインへの微調整事前学習言語モデル(PLM)のトークン化方式。
本稿では,BPEのトークン化フェーズが変更され,文字レベルでのトークン化の前に,付加(ターゲット)語彙上で最も長い文字列マッチングが実行されるAdaptBPEを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:24:55Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。