論文の概要: Global Context Compression with Interleaved Vision-Text Transformation
- arxiv url: http://arxiv.org/abs/2601.10378v1
- Date: Thu, 15 Jan 2026 13:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.141649
- Title: Global Context Compression with Interleaved Vision-Text Transformation
- Title(参考訳): インターリーブ型視覚テキスト変換による大域的文脈圧縮
- Authors: Dian Jiao, Jiaxin Duan, Shuai Zhao, Jiabing Leng, Yiran Zhang, Feng Huang,
- Abstract要約: 本稿では,前処理と推論の両方の段階でトークンを節約するグローバルコンテキスト圧縮について検討する。
入力テキストチャンクと視覚的エンコーディングとをインターリーブする新しいトランスフォーマーであるVIST2を提案する。
4$times$圧縮比で、結果として得られたモデルは長文タスクのベースラインよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 12.971394377165767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent achievements of vision-language models in end-to-end OCR point to a new avenue for low-loss compression of textual information. This motivates earlier works that render the Transformer's input into images for prefilling, which effectively reduces the number of tokens through visual encoding, thereby alleviating the quadratically increased Attention computations. However, this partial compression fails to save computational or memory costs at token-by-token inference. In this paper, we investigate global context compression, which saves tokens at both prefilling and inference stages. Consequently, we propose VIST2, a novel Transformer that interleaves input text chunks alongside their visual encoding, while depending exclusively on visual tokens in the pre-context to predict the next text token distribution. Around this idea, we render text chunks into sketch images and train VIST2 in multiple stages, starting from curriculum-scheduled pretraining for optical language modeling, followed by modal-interleaved instruction tuning. We conduct extensive experiments using VIST2 families scaled from 0.6B to 8B to explore the training recipe and hyperparameters. With a 4$\times$ compression ratio, the resulting models demonstrate significant superiority over baselines on long writing tasks, achieving, on average, a 3$\times$ speedup in first-token generation, 77% reduction in memory usage, and 74% reduction in FLOPS. Our codes and datasets will be public to support further studies.
- Abstract(参考訳): エンド・ツー・エンドのOCRにおける視覚言語モデルの最近の成果は、テキスト情報の低損失圧縮のための新たな道を指す。
これは、トランスフォーマーの入力をプリフィルのためにイメージに描画する以前の作業の動機付けであり、視覚的エンコーディングによってトークンの数を効果的に減らし、二次的に増大するアテンション計算を緩和する。
しかし、この部分圧縮はトークン・バイ・トークン推論において計算コストやメモリコストを削減できない。
本稿では,前処理と推論の両方の段階でトークンを節約するグローバルコンテキスト圧縮について検討する。
そこで本研究では,入力テキストチャンクと視覚的エンコーディングとをインターリーブする新しいトランスフォーマーであるVIST2を提案する。
このアイデアの周辺では、スケッチ画像にテキストチャンクを描画し、光学言語モデリングのためのカリキュラムスケジューリング前トレーニングから、モーダルインターリーブ命令チューニングまで、VIST2を複数の段階で訓練する。
我々は、VIST2ファミリーを0.6Bから8Bに拡大して、トレーニングレシピとハイパーパラメーターを探索する広範囲な実験を行った。
4$\times$圧縮比で、結果として得られたモデルは長文タスクのベースラインよりも大幅に優れており、平均して3$\times$第1世代でのスピードアップ、メモリ使用量の77%削減、FLOPSの74%削減を実現している。
私たちのコードとデータセットは、さらなる研究をサポートするために公開されます。
関連論文リスト
- Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs [14.784763071210014]
視覚テキスト表現は,デコーダLLMの入力圧縮において,実用的で驚くほど効果的であることを示す。
我々は、長いテキスト入力を単一の画像としてレンダリングし、モデルに直接提供するというアイデアを生かしている。
これによりデコーダトークンの数が劇的に削減され、新しい形式の入力圧縮が提供される。
論文 参考訳(メタデータ) (2025-10-21T04:07:20Z) - Glyph: Scaling Context Windows via Visual-Text Compression [91.20717058018745]
Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
論文 参考訳(メタデータ) (2025-10-20T17:58:56Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。