論文の概要: Overcoming Vocabulary Constraints with Pixel-level Fallback
- arxiv url: http://arxiv.org/abs/2504.02122v1
- Date: Wed, 02 Apr 2025 20:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:08.654081
- Title: Overcoming Vocabulary Constraints with Pixel-level Fallback
- Title(参考訳): ピクセルレベルのフォールバックによる語彙制約の克服
- Authors: Jonas F. Lotz, Hendra Setiawan, Stephan Peitz, Yova Kementchedjhieva,
- Abstract要約: 代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。
画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
- 参考スコア(独自算出の注目度): 9.753745943931207
- License:
- Abstract: Subword tokenization requires balancing computational efficiency and vocabulary coverage, which often leads to suboptimal performance on languages and scripts not prioritized during training. We propose to augment pretrained language models with a vocabulary-free encoder that generates input embeddings from text rendered as pixels. Through experiments on English-centric language models, we demonstrate that our approach substantially improves machine translation performance and facilitates effective cross-lingual transfer, outperforming tokenizer-based methods. Furthermore, we find that pixel-based representations outperform byte-level approaches and standard vocabulary expansion. Our approach enhances the multilingual capabilities of monolingual language models without extensive retraining and reduces decoding latency via input compression.
- Abstract(参考訳): サブワードのトークン化には、計算効率と語彙のカバレッジのバランスが必要だ。
本稿では,画素として描画されたテキストから入力埋め込みを生成するボキャブラリフリーエンコーダを用いた事前学習型言語モデルの拡張を提案する。
英語中心の言語モデルの実験を通して、我々の手法は機械翻訳性能を大幅に改善し、効果的な言語間変換、トークン化手法よりも優れていることを示す。
さらに,ピクセルベースの表現は,バイトレベルのアプローチや標準語彙拡張よりも優れていた。
提案手法は, 言語モデルの多言語性を向上させるとともに, 入力圧縮による復号遅延を低減する。
関連論文リスト
- Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。
入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。
本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-01-28T14:15:42Z) - Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian [0.19116784879310028]
エストニア語に適合するように多言語エンコーダモデルの語彙を変更すると、その下流のパフォーマンスに影響を及ぼす。
本稿では,2つの語彙適応手法の有効性を評価する。
論文 参考訳(メタデータ) (2025-01-05T19:21:45Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Towards Continual Learning for Multilingual Machine Translation via
Vocabulary Substitution [16.939016405962526]
多言語機械翻訳モデルの言語能力を拡張するための簡単な語彙適応スキームを提案する。
提案手法は大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2021-03-11T17:10:21Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。