論文の概要: Conditional Unigram Tokenization with Parallel Data
- arxiv url: http://arxiv.org/abs/2507.07824v1
- Date: Thu, 10 Jul 2025 14:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.45172
- Title: Conditional Unigram Tokenization with Parallel Data
- Title(参考訳): 並列データを用いた条件付きユニグラムトークン化
- Authors: Gianluca Vico, Jindřinch Libovický,
- Abstract要約: 並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。
我々は、異なるファミリーとリソースレベルにわたる4つの言語対でトークン化器を評価した。
- 参考スコア(独自算出の注目度): 1.8416014644193066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce conditional unigram tokenization, a novel approach that extends unigram tokenization by conditioning target token probabilities on source-language tokens from parallel data. Given a fixed source tokenizer, our method learns a target tokenizer that maximizes cross-lingual semantic alignment. We evaluate our tokenizer on four language pairs across different families and resource levels, examining intrinsic properties and downstream performance on machine translation and language modeling. While our conditional tokenizer maintains comparable statistical properties to standard unigram tokenizers, results are mixed: we observe no improvements in machine translation quality, but find consistent perplexity reductions in language modeling. We hypothesize that quadratic scaling of conditional probability estimation with respect to the vocabulary size creates a data efficiency bottleneck. Our findings suggest that alternative parameterizations may be necessary for practical cross-lingual tokenization.
- Abstract(参考訳): 並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。
固定されたソーストークン化器が与えられた場合、言語間セマンティックアライメントを最大化するターゲットトークン化器を学習する。
我々は,異なる家族と資源レベルの4つの言語対に対するトークン化器の評価を行い,機械翻訳と言語モデリングにおける本質的特性と下流性能について検討した。
条件付きトークン化器は標準ユニグラムトークン化器に匹敵する統計特性を保っているが,結果が混在している。
条件付き確率推定の語彙サイズに対する2次スケーリングは、データ効率のボトルネックを生み出すと仮定する。
本研究は, 実用的な言語間トークン化には代替パラメータ化が必要であることを示唆する。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Beyond Text Compression: Evaluating Tokenizers Across Scales [4.0253589606301174]
トークン化器の選択は、英語のタスクに無視できる効果を持つが、多言語設定における一貫した性能差をもたらすことを示す。
我々はZipfの法則に着想を得た新しい固有のトークン化指標を提案し、テキスト圧縮よりも下流のパフォーマンスと強く相関する。
論文 参考訳(メタデータ) (2025-06-03T17:35:56Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Conditional Bilingual Mutual Information Based Adaptive Training for
Neural Machine Translation [66.23055784400475]
トークンレベルの適応トレーニングアプローチはトークンの不均衡問題を緩和することができる。
条件付きバイリンガル相互情報(CBMI)という目標コンテキスト対応メトリックを提案する。
CBMIは、事前の統計計算なしで、モデルトレーニング中に効率的に計算することができる。
論文 参考訳(メタデータ) (2022-03-06T12:34:10Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。