論文の概要: Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling
- arxiv url: http://arxiv.org/abs/2601.09566v1
- Date: Wed, 14 Jan 2026 15:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.452089
- Title: Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling
- Title(参考訳): 画像からのホットスタート:中国語モデリングのための低解像度ビジュアルトークン
- Authors: Shuyang Xiang, Hao Guan,
- Abstract要約: 低分解能な視覚入力が文字レベルモデリングの代替となるかどうかを検討する。
我々のデコーダは個々の文字のグレースケール画像を受け取り、解像度は8×8$ピクセルである。
- 参考スコア(独自算出の注目度): 1.920312875157821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models typically represent Chinese characters as discrete index-based tokens, largely ignoring their visual form. For logographic scripts, visual structure carries semantic and phonetic information, which may aid prediction. We investigate whether low-resolution visual inputs can serve as an alternative for character-level modeling. Instead of token IDs, our decoder receives grayscale images of individual characters, with resolutions as low as $8 \times 8$ pixels. Remarkably, these inputs achieve 39.2\% accuracy, comparable to the index-based baseline of 39.1\%. Such low-resource settings also exhibit a pronounced \emph{hot-start} effect: by 0.4\% of total training, accuracy reaches above 12\%, while index-based models lag at below 6\%. Overall, our results demonstrate that minimal visual structure can provide a robust and efficient signal for Chinese language modeling, offering an alternative perspective on character representation that complements traditional index-based approaches.
- Abstract(参考訳): 大規模言語モデルは典型的には漢字を離散的なインデックスベースのトークンとして表現し、その視覚的な形を無視している。
ログ作成スクリプトでは、視覚構造は意味情報と音声情報を持ち、予測に役立てることができる。
低分解能な視覚入力が文字レベルモデリングの代替となるかどうかを検討する。
トークンIDの代わりに、デコーダは個々の文字のグレースケールの画像を受け取る。
注目すべきは、これらの入力は39.2\%の精度を達成し、インデックスベースベースラインの39.1\%に匹敵する。
トレーニング全体の0.4 %は精度が 12 % を超え、インデックスベースのモデルは 6 % 未満である。
総じて、我々は、最小限の視覚構造が、従来のインデックスベースアプローチを補完する文字表現の代替的視点を提供する、中国語モデリングのための堅牢で効率的な信号を提供することを示した。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。
単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。
解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文 参考訳(メタデータ) (2023-11-01T13:49:31Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition [4.64065792373245]
我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-17T14:39:10Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Recurrent neural network transducer for Japanese and Chinese offline
handwritten text recognition [5.704448607986111]
日本語と中国語のオフラインテキスト行画像を認識するためのRNN-Transducerモデルを提案する。
提案モデルでは,入力画像からの視覚情報と言語情報の両方を利用する。
実験結果から,提案モデルが全データセットの最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-06-28T08:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。