Fugu-MT 論文翻訳(概要): Retrofitting (Large) Language Models with Dynamic Tokenization

論文の概要: Retrofitting (Large) Language Models with Dynamic Tokenization

arxiv url: http://arxiv.org/abs/2411.18553v1
Date: Wed, 27 Nov 2024 17:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.765666
Title: Retrofitting (Large) Language Models with Dynamic Tokenization
Title（参考訳）: 動的トークン化を用いた言語モデルの再適合(大規模)
Authors: Darius Feher, Benjamin Minixhofer, Ivan Vulić,
Abstract要約: 現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。この選択はしばしば認められ、英語以外の言語で効率と能力が低下する結果となった。入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
参考スコア（独自算出の注目度）: 3.608780819053423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current language models (LMs) use a fixed, static subword tokenizer. This choice, often taken for granted, typically results in degraded efficiency and capabilities in languages other than English, and makes it challenging to apply LMs to new domains or languages. To address these issues, we propose retrofitting LMs with dynamic tokenization: a way to dynamically decide on token boundaries based on the input text. For encoder-style models, we introduce a subword-merging algorithm inspired by byte-pair encoding (BPE), but at a batch level. We merge frequent subword sequences in a batch, then apply a pretrained embedding-prediction hypernetwork to compute the token embeddings on-the-fly. When applied with word-level boundaries, this on average reduces token sequence lengths by >20% across 14 languages on XNLI with XLM-R while degrading its task performance by less than 2%. For decoder-style models, we apply dynamic tokenization in two ways: 1) for prefilling, maintaining performance of Mistral-7B almost completely with up to 40% sequence reduction - relative to the word-level; and 2) via an approximate nearest neighbor index, achieving fast generation with a one million token vocabulary, demonstrating scalability to even larger, dynamic vocabularies. Overall, our findings show that dynamic tokenization substantially improves inference speed and promotes fairness across languages, making a leap towards overcoming the limitations of static tokenization and enabling more equitable and adaptable LMs.
Abstract（参考訳）: 現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。この選択は通常、英語以外の言語で効率と能力の低下をもたらし、LMを新しいドメインや言語に適用することは困難である。これらの問題に対処するために,入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。エンコーダ型モデルでは、バイトペア符号化(BPE)にインスパイアされたサブワードマージアルゴリズムを導入するが、バッチレベルでは導入しない。バッチに頻繁なサブワードシーケンスをマージし、事前トレーニングされた埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。単語レベルでのバウンダリを適用すると、XLM-Rを用いてXNLI上の14言語でトークンシーケンスの長さを平均20%削減し、タスク性能を2%以下に低下させる。デコーダスタイルのモデルでは、動的トークン化を2つの方法で適用する。 1) Mistral-7B のプレフィル, 維持性能は, 単語レベルに対して最大40% の低下率でほぼ完全に維持される。約100万のトークンボキャブラリで高速な生成を実現し、さらに大きな動的ボキャブラリへのスケーラビリティを実証する。全体として、動的トークン化は推論速度を大幅に改善し、言語間の公平性を向上し、静的トークン化の限界を克服し、より公平で適応可能なLMを実現する。

関連論文リスト

FLEXITOKENS: Flexible Tokenization for Evolving Language Models [3.2749495104311874]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文参考訳（メタデータ） (2025-07-17T01:55:41Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文参考訳（メタデータ） (2025-04-21T19:40:32Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。重要なアルゴリズム設計選択が下流モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-02-21T09:58:54Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文参考訳（メタデータ） (2024-07-11T18:59:21Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文参考訳（メタデータ） (2023-11-15T10:40:45Z)
VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文参考訳（メタデータ） (2023-04-17T12:23:41Z)
Efficient Transformers with Dynamic Token Pooling [11.28381882347617]
言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。その結果、動的プーリングはバニラ変換器よりも高速かつ高精度であることがわかった。
論文参考訳（メタデータ） (2022-11-17T18:39:23Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文参考訳（メタデータ） (2022-01-06T10:04:56Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文参考訳（メタデータ） (2021-06-11T13:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。