Fugu-MT 論文翻訳(概要): Zero-Shot Tokenizer Transfer

論文の概要: Zero-Shot Tokenizer Transfer

arxiv url: http://arxiv.org/abs/2405.07883v1
Date: Mon, 13 May 2024 16:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 12:56:21.399917
Title: Zero-Shot Tokenizer Transfer
Title（参考訳）: ゼロショットトケナイザ転送
Authors: Benjamin Minixhofer, Edoardo Maria Ponti, Ivan Vulić,
Abstract要約: 我々は、トークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する。我々の手法は、言語間およびコーディングタスクにおける元のモデルの性能に近い。
参考スコア（独自算出の注目度）: 17.597293085255075
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.
Abstract（参考訳）: 言語モデル(LM)は、原文を語彙項目(トークン)のシーケンスにマッピングするトークン化器にバインドされている。例えば、主に英語で訓練されたLMは、他の自然言語やプログラミング言語でもよく機能するが、英語中心のトークン化器によって効率が大幅に低下している。これを緩和するためには、性能を劣化させることなく、元のLMトークンーを任意のトークンに置き換えることが可能である。したがって、本研究では、ZeTT(Zero-Shot Tokenizer Transfer)という新しい問題を定義します。 ZeTTの中核にある課題は、新しいトークンの語彙にトークンの埋め込みを見つけることだ。埋め込みを初期化するための事前ヒューリスティックスはZeTT設定でしばしば偶然に発生するので、我々はトークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する新しい解決策を提案する。我々は、ハイパーネットワークがエンコーダ (eg , XLM-R) とデコーダ (eg , Mistral-7B) の両方で新しいトークン化器に一般化することを実証的に示す。本手法は,言語間およびコーディングタスクにおける元のモデルの性能に近く,トークン化シーケンスの長さを著しく削減する。また,1B未満のトークンのトレーニングを継続することで,残余のギャップを迅速に閉じることができることがわかった。最後に、ベース(L)LMでトレーニングされたZeTTハイパーネットワークが、余分なトレーニングなしで微調整された変種にも適用可能であることを示す。総じて, この結果は, トークン化剤からのLMの除去に大きく貢献している。

関連論文リスト

FLEXITOKENS: Flexible Tokenization for Evolving Language Models [3.2749495104311874]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文参考訳（メタデータ） (2025-07-17T01:55:41Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文参考訳（メタデータ） (2025-06-07T00:51:27Z)
StochasTok: Improving Fine-Grained Subword Understanding in LLMs [39.85256850592515]
サブワードレベルの理解は、多桁数字の理解、綴りミス、略語、韻律、言葉遊びなど、多くのタスクに不可欠である。現在の大きな言語モデル(LLM)は、一見単純なサブワードレベルのタスクに苦しむことが多い。我々はStochasTokを紹介した。StochasTokは、トレーニング中にトークンをランダムに分割し、LCMが"内部構造を見る"ことを可能にする、シンプルで効率的なトークン化スキームである。
論文参考訳（メタデータ） (2025-06-02T13:51:11Z)
HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文参考訳（メタデータ） (2025-04-21T19:40:32Z)
SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。 SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文参考訳（メタデータ） (2025-03-17T17:53:23Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文参考訳（メタデータ） (2024-11-27T17:51:58Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。 SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文参考訳（メタデータ） (2024-05-24T13:35:56Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)
Protum: A New Method For Prompt Tuning Based on "[MASK]" [12.057434751507552]
本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。 textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-01-28T13:34:30Z)
CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。 CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文参考訳（メタデータ） (2021-03-11T18:57:44Z)
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。 COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文参考訳（メタデータ） (2021-02-16T22:24:29Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。