論文の概要: Glyph: Scaling Context Windows via Visual-Text Compression
- arxiv url: http://arxiv.org/abs/2510.17800v2
- Date: Tue, 21 Oct 2025 17:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.137154
- Title: Glyph: Scaling Context Windows via Visual-Text Compression
- Title(参考訳): Glyph: Visual-Text CompressionによるコンテキストWindowsのスケーリング
- Authors: Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang,
- Abstract要約: Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
- 参考スコア(独自算出の注目度): 91.20717058018745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly rely on long-context modeling for tasks such as document understanding, code analysis, and multi-step reasoning. However, scaling context windows to the million-token level brings prohibitive computational and memory costs, limiting the practicality of long-context LLMs. In this work, we take a different perspective-visual context scaling-to tackle this challenge. Instead of extending token-based sequences, we propose Glyph, a framework that renders long texts into images and processes them with vision-language models (VLMs). This approach substantially compresses textual input while preserving semantic information, and we further design an LLM-driven genetic search to identify optimal visual rendering configurations for balancing accuracy and compression. Through extensive experiments, we demonstrate that our method achieves 3-4x token compression while maintaining accuracy comparable to leading LLMs such as Qwen3-8B on various long-context benchmarks. This compression also leads to around 4x faster prefilling and decoding, and approximately 2x faster SFT training. Furthermore, under extreme compression, a 128K-context VLM could scale to handle 1M-token-level text tasks. In addition, the rendered text data benefits real-world multimodal tasks, such as document understanding. Our code and model are released at https://github.com/thu-coai/Glyph.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文書理解、コード解析、多段階推論といったタスクの長文モデリングにますます依存している。
しかし、コンテキストウィンドウを100万レベルまで拡張すると、計算とメモリのコストが禁じられ、長文LLMの実用性が制限される。
この作業では、この課題に対処するために、異なる視点-視覚的コンテキストのスケーリングを取ります。
トークンベースのシーケンスを拡張する代わりに、長いテキストを画像にレンダリングし、視覚言語モデル(VLM)で処理するフレームワークであるGlyphを提案する。
提案手法は,意味情報を保存しながらテキスト入力を実質的に圧縮し,精度と圧縮のバランスをとるための最適な視覚的レンダリング構成を特定するために,LLMによる遺伝的検索をさらに設計する。
本研究では,Qwen3-8BなどのLLMに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現していることを示す。
この圧縮により、プリフィルとデコードが約4倍、SFTトレーニングが約2倍高速になる。
さらに、極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
さらに、レンダリングされたテキストデータは、文書理解などの実世界のマルチモーダルタスクの恩恵を受ける。
私たちのコードとモデルはhttps://github.com/thu-coai/Glyph.comで公開されています。
関連論文リスト
- QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA [16.494799458292]
画像はテキストよりも冗長な情報が多く、視覚的な詳細が特定の質問に関係しているわけではない。
MLLMに基づくVQAタスクのための新しい質問誘導型ビジュアルトークン圧縮手法であるQG-VTCを提案する。
QG-VTCは、事前訓練されたテキストエンコーダと学習可能なフィードフォワード層を使用して、ユーザ質問を視覚エンコーダの機能空間に埋め込む。
論文 参考訳(メタデータ) (2025-04-01T11:07:19Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。