論文の概要: Does Visual Rendering Bypass Tokenization? Investigating Script-Tokenizer Misalignment in Pixel-Based Language Models
- arxiv url: http://arxiv.org/abs/2602.06973v1
- Date: Mon, 12 Jan 2026 07:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.671746
- Title: Does Visual Rendering Bypass Tokenization? Investigating Script-Tokenizer Misalignment in Pixel-Based Language Models
- Title(参考訳): ビジュアライゼーションをバイパスする視覚的レンダリング : 画素ベース言語モデルにおけるスクリプト・トケナイザの相違について
- Authors: Lucky Susanto, Musa Izzanardi Wijanarko, Khumaisa Nur'aini, Farid Adilazuarda, Alham Fikri Aji, Derry Tanti Wijaya,
- Abstract要約: DualGPTのようなマルチモーダルな変種は、自動回帰性能を改善するためにテキストトークンを再導入する。
視覚的なレンダリングは、モデルとトークン化の制約を真に分離するのか?
この結果から,視覚的レンダリングに拘わらず,テキストトークン化ツールをアーキテクチャに再統合することで,ピクセルベースの言語モデリングが解決しようとしているのと同じ問題を再導入することがわかった。
- 参考スコア(独自算出の注目度): 20.181240222544208
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While pixel-based language modeling aims to bypass the sub-word tokenization bottleneck by rendering text as images, recent multimodal variants such as DualGPT reintroduce text tokenizers to improve autoregressive performance. We investigate a fundamental question, does visual rendering truly decouple a model from tokenization constraints? Focusing on four Indonesian low-resource local languages that have their own non-Latin scripts (i.e., Javanese, Balinese, Sundanese, and Lampungnese), we evaluate the impact of script-tokenizer alignment within the DualGPT architecture. Our results show that, despite visual rendering, reintegrating a text tokenizer into the architecture reintroduces the same issue that pixel-based language modeling aims to resolve, which is the tokenizer misalignment problem. Despite having lower OOV and fertility rates, we show that the Llama 2 tokenizer performs significantly worse than a custom tokenizer, with improvements of up to 30.15 chrF++. Our findings serve as a warning for future multimodal variants, as text tokenizers remain a significant barrier to equitable models.
- Abstract(参考訳): ピクセルベースの言語モデリングは、テキストを画像としてレンダリングすることでサブワードトークン化のボトルネックを回避することを目的としているが、DualGPTのような最近のマルチモーダル変種は、自動回帰性能を改善するためにテキストトークン化を再導入している。
視覚的なレンダリングは、モデルとトークン化の制約を真に分離するのか?
インドネシアの4つの低リソースのローカル言語(Javanese、Balinese、Sundanese、Lampungnese)に注目し、DualGPTアーキテクチャにおけるスクリプト・トケナイザのアライメントの影響を評価した。
この結果から,視覚的レンダリングに拘わらず,テキストトークンライザをアーキテクチャに再統合することで,画素ベースの言語モデリングが解決しようとしている問題,すなわちトークンライザのミスアライメントの問題が再導入されることが示唆された。
OOVが低く、受精率も低いにもかかわらず、Llama 2のトークン化剤はカスタムのトークン化剤よりも著しく性能が悪く、最大30.15 chrF++の改善が見られた。
テキストトークン化器は、同値モデルにとって重要な障壁であり続けるため、我々の発見は将来のマルチモーダル変種に対する警告となる。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Beyond Text Compression: Evaluating Tokenizers Across Scales [4.0253589606301174]
トークン化器の選択は、英語のタスクに無視できる効果を持つが、多言語設定における一貫した性能差をもたらすことを示す。
我々はZipfの法則に着想を得た新しい固有のトークン化指標を提案し、テキスト圧縮よりも下流のパフォーマンスと強く相関する。
論文 参考訳(メタデータ) (2025-06-03T17:35:56Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。