論文の概要: Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.18279v2
- Date: Wed, 22 Oct 2025 01:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.855886
- Title: Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs
- Title(参考訳): テキストかピクセルか:マルチモーダルLCMにおける視覚テキスト入力のトーケン効率について
- Authors: Yanhong Li, Zixuan Lan, Jiawei Zhou,
- Abstract要約: 視覚テキスト表現は,デコーダLLMの入力圧縮において,実用的で驚くほど効果的であることを示す。
我々は、長いテキスト入力を単一の画像としてレンダリングし、モデルに直接提供するというアイデアを生かしている。
これによりデコーダトークンの数が劇的に削減され、新しい形式の入力圧縮が提供される。
- 参考スコア(独自算出の注目度): 14.784763071210014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and their multimodal variants can now process visual inputs, including images of text. This raises an intriguing question: can we compress textual inputs by feeding them as images to reduce token usage while preserving performance? In this paper, we show that visual text representations are a practical and surprisingly effective form of input compression for decoder LLMs. We exploit the idea of rendering long text inputs as a single image and provide it directly to the model. This leads to dramatically reduced number of decoder tokens required, offering a new form of input compression. Through experiments on two distinct benchmarks RULER (long-context retrieval) and CNN/DailyMail (document summarization) we demonstrate that this text-as-image method yields substantial token savings (often nearly half) without degrading task performance.
- Abstract(参考訳): 大規模言語モデル(LLM)とそのマルチモーダル変種は、テキストの画像を含む視覚的な入力を処理できるようになった。
パフォーマンスを保ちながらトークンの使用量を減らすために、イメージとしてテキスト入力をフィードすることで、テキスト入力を圧縮できるのか?
本稿では,デコーダLLMの入力圧縮において,視覚テキスト表現は実用的で驚くほど効果的であることを示す。
我々は、長いテキスト入力を単一の画像としてレンダリングし、モデルに直接提供するというアイデアを生かしている。
これによりデコーダトークンの数が劇的に削減され、新しい形式の入力圧縮が提供される。
RULER (long-context search) と CNN/DailyMail (document summarization) の2つの異なるベンチマークの実験を通して、このテキスト・アズ・イメージ法がタスク性能を劣化させることなく、かなりのトークンの節約(多くの場合、半分)をもたらすことを示した。
関連論文リスト
- Global Context Compression with Interleaved Vision-Text Transformation [12.971394377165767]
本稿では,前処理と推論の両方の段階でトークンを節約するグローバルコンテキスト圧縮について検討する。
入力テキストチャンクと視覚的エンコーディングとをインターリーブする新しいトランスフォーマーであるVIST2を提案する。
4$times$圧縮比で、結果として得られたモデルは長文タスクのベースラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2026-01-15T13:29:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。
単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。
解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文 参考訳(メタデータ) (2023-11-01T13:49:31Z) - PuMer: Pruning and Merging Tokens for Efficient Vision Language Models [41.81484883647005]
PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
論文 参考訳(メタデータ) (2023-05-27T17:16:27Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。