Fugu-MT 論文翻訳(概要): StochasTok: Improving Fine-Grained Subword Understanding in LLMs

論文の概要: StochasTok: Improving Fine-Grained Subword Understanding in LLMs

arxiv url: http://arxiv.org/abs/2506.01687v2
Date: Tue, 10 Jun 2025 21:05:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 02:07:43.238843
Title: StochasTok: Improving Fine-Grained Subword Understanding in LLMs
Title（参考訳）: StochasTok: LLMにおける細粒度サブワード理解の改善
Authors: Anya Sims, Thom Foster, Klara Kaleb, Tuan-Duy H. Nguyen, Joseph Lee, Jakob N. Foerster, Yee Whye Teh, Cong Lu,
Abstract要約: サブワードレベルの理解は、多桁数字の理解、綴りミス、略語、韻律、言葉遊びなど、多くのタスクに不可欠である。現在の大きな言語モデル(LLM)は、一見単純なサブワードレベルのタスクに苦しむことが多い。我々はStochasTokを紹介した。StochasTokは、トレーニング中にトークンをランダムに分割し、LCMが"内部構造を見る"ことを可能にする、シンプルで効率的なトークン化スキームである。
参考スコア（独自算出の注目度）: 39.85256850592515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Subword-level understanding is integral to numerous tasks, including understanding multi-digit numbers, spelling mistakes, abbreviations, rhyming, and wordplay. Despite this, current large language models (LLMs) still often struggle with seemingly simple subword-level tasks like How many 'r's in 'strawberry'?. A key factor behind these failures is tokenization which obscures the fine-grained structure of words. Current alternatives, such as character-level and dropout tokenization methods, significantly increase computational costs and provide inconsistent improvements. In this paper we revisit tokenization and introduce StochasTok, a simple, efficient stochastic tokenization scheme that randomly splits tokens during training, allowing LLMs to 'see' their internal structure. Our experiments show that pretraining with StochasTok substantially improves LLMs' downstream performance across multiple subword-level language games, including character counting, substring identification, and math tasks. Furthermore, StochasTok's simplicity allows seamless integration at any stage of the training pipeline; and we demonstrate that post-training with StochasTok can instill improved subword understanding into existing pretrained models, thus avoiding costly pretraining from scratch. These dramatic improvements achieved with a minimal change suggest StochasTok holds exciting potential when applied to larger, more capable models. Code open-sourced at: https://github.com/anyasims/stochastok.
Abstract（参考訳）: サブワードレベルの理解は、多桁数字の理解、綴りミス、略語、韻律、言葉遊びなど、多くのタスクに不可欠である。それにもかかわらず、現在の大きな言語モデル(LLM)は、多くの場合、単純なサブワードレベルのタスクに苦しむ。と。これらの失敗の背後にある重要な要因は、言葉のきめ細かい構造を隠蔽するトークン化である。文字レベルのトークン化やドロップアウトトークン化といった現在の代替手段は、計算コストを大幅に増加させ、一貫性のない改善を提供する。本稿では、トークン化を再検討し、StochasTokを導入する。StochasTokは、トレーニング中にランダムにトークンを分割し、LCMの内部構造を「見る」ことができる、シンプルで効率的な確率的トークン化スキームである。実験の結果,StochasTokによる事前学習は,文字カウント,サブストリング識別,数学タスクを含む複数のサブワードレベル言語ゲームにおいて,LLMのダウンストリーム性能を大幅に向上させることがわかった。さらに、StochasTokのシンプルさは、トレーニングパイプラインの任意の段階でシームレスな統合を可能にします。最小限の変更で達成されたこれらの劇的な改善は、より大きく、より有能なモデルに適用した場合、StochasTokがエキサイティングなポテンシャルを持っていることを示唆している。コードは、https://github.com/anyasims/stochastok.comでオープンソース化された。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文参考訳（メタデータ） (2025-06-04T03:15:57Z)
HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文参考訳（メタデータ） (2025-04-21T19:40:32Z)
Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文参考訳（メタデータ） (2024-11-27T17:51:58Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Zero-Shot Tokenizer Transfer [17.597293085255075]
我々は、トークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する。我々の手法は、言語間およびコーディングタスクにおける元のモデルの性能に近い。
論文参考訳（メタデータ） (2024-05-13T16:17:10Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文参考訳（メタデータ） (2023-05-09T11:00:02Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Char2Subword: Extending the Subword Embedding Space Using Robust Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文参考訳（メタデータ） (2020-10-24T01:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。