論文の概要: ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink
- arxiv url: http://arxiv.org/abs/2603.02805v1
- Date: Tue, 03 Mar 2026 09:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.742796
- Title: ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink
- Title(参考訳): ScribeTokens:デジタルインクの固定語彙化
- Authors: Douglass Wang,
- Abstract要約: ペンの動きを単位ピクセルステップに分解するトークン化であるScribeTokensを提案する。
手書きテキスト生成では、ScribeTokensはベクトル(17.33% vs. 70.29% CER)を劇的に上回り、トークンは生成にはるかに効果的であることを示す。
我々は、トークンベースモデル全体の認識を一貫して改善する自己教師付き事前学習戦略として、次世代の予測を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital ink -- the coordinate stream captured from stylus or touch input -- lacks a unified representation. Continuous vector representations produce long sequences and suffer from training instability, while existing token representations require large vocabularies, face out-of-vocabulary issues, and underperform vectors on recognition. We propose ScribeTokens, a tokenization that decomposes pen movement into unit pixel steps. Together with two pen-state tokens, this fixed 10-token base vocabulary suffices to represent any digital ink and enables aggressive BPE compression. On handwritten text generation, ScribeTokens dramatically outperforms vectors (17.33% vs. 70.29% CER), showing tokens are far more effective for generation. On recognition, ScribeTokens is the only token representation to outperform vectors without pretraining. We further introduce next-ink-token prediction as a self-supervised pretraining strategy, which consistently improves recognition across all token-based models and accelerates convergence by up to 83x. With pretraining, ScribeTokens achieves the best recognition results across all representations on both datasets (8.27% CER on IAM, 9.83% on DeepWriting).
- Abstract(参考訳): スタイラスやタッチ入力からキャプチャされた座標ストリームであるデジタルインクには、統一された表現がない。
連続ベクトル表現は長いシーケンスを生成し、トレーニングの不安定性に悩まされる一方、既存のトークン表現は大きな語彙、語彙外問題に直面し、認識におけるベクトルの過小評価を必要とする。
ペンの動きを単位ピクセルステップに分解するトークン化であるScribeTokensを提案する。
2つのペンステートトークンとともに、この固定された10tokenベースボキャブラリは、任意のデジタルインクを表すのに十分であり、攻撃的なBPE圧縮を可能にする。
手書きテキスト生成では、ScribeTokensはベクトル(17.33% vs. 70.29% CER)を劇的に上回り、トークンは生成にはるかに効果的であることを示す。
認識において、ScribeTokensは事前トレーニングなしでベクターを上回る唯一のトークン表現である。
さらに,next-ink-token予測を自己教師付き事前学習戦略として導入し,トークンベースモデル全体の認識を継続的に改善し,最大83倍の収束を加速する。
事前トレーニングによって、ScribeTokensは両方のデータセットのすべての表現で最高の認識結果を達成する(IAMでは8.27%、DeepWritingでは9.83%)。
関連論文リスト
- LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。
LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文 参考訳(メタデータ) (2025-08-30T02:43:50Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers [27.127016750061944]
非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
実験の結果, 難治性の大群は幻覚行動に顕著に影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T07:19:44Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。