論文の概要: UIPress: Bringing Optical Token Compression to UI-to-Code Generation
- arxiv url: http://arxiv.org/abs/2604.09442v1
- Date: Fri, 10 Apr 2026 15:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.948053
- Title: UIPress: Bringing Optical Token Compression to UI-to-Code Generation
- Title(参考訳): UIPress: UI-to-Code生成に光トークン圧縮を導入
- Authors: Dasen Dai, Shuoqi Li, Ronghao Chen, Huacan Wang, Biao Wu, Qizhen Lan,
- Abstract要約: UI-to-Code生成のための軽量な学習圧縮モジュールを提案する。
UIPressは、奥行き分離可能な畳み込み、要素誘導空間再重み付け、トランスフォーマーの改良を組み合わせて、ビジュアルトークンを256の固定予算に圧縮する。
我々の知る限りでは、UI-to-Codeタスクのための最初のエンコーダ側の学習圧縮メソッドである。
- 参考スコア(独自算出の注目度): 2.462537008029033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UI-to-Code generation requires vision-language models (VLMs) to produce thousands of tokens of structured HTML/CSS from a single screenshot, making visual token efficiency critical. Existing compression methods either select tokens at inference time using task-agnostic heuristics, or zero out low-attention features without actually shortening the sequence -- neither truly reduces prefill latency or adapts to the non-uniform information density of UI screenshots. Meanwhile, optical (encoder-side learned) compression has shown strong results for document OCR, yet no prior work has adapted this paradigm to UI-to-Code generation. We propose UIPress, a lightweight learned compression module inserted between the frozen ViT encoder and the LLM decoder of Qwen3-VL-8B. UIPress combines depthwise-separable convolutions, element-guided spatial reweighting, and Transformer refinement to compress ${\sim}$6{,}700 visual tokens to a fixed budget of 256. Together with Low-Rank Adaptation (LoRA) on the decoder to bridge the representation gap, the entire system adds only ${\sim}$21.7M trainable parameters (0.26\% of the 8B base model). Under a fair comparison on the same base model against four baselines on Design2Code, UIPress at 256 tokens achieves a CLIP score of 0.8127, outperforming the uncompressed baseline by +7.5\% and the strongest inference-time method by +4.6\%, while delivering 9.1$\times$ time-to-first-token speedup. To the best of our knowledge, UIPress is the first encoder-side learned compression method for the UI-to-Code task.
- Abstract(参考訳): UI-to-Code生成は、単一のスクリーンショットから構造化されたHTML/CSSの数千のトークンを生成するために視覚言語モデル(VLM)を必要とする。
既存の圧縮メソッドは、タスクに依存しないヒューリスティックを使用して推論時にトークンを選択するか、シーケンスを実際に短縮せずに低アテンション機能をゼロにするかのいずれかである。
一方、光学(エンコーダ側で学習した)圧縮は、ドキュメントOCRに対して強い結果を示しているが、以前の研究では、このパラダイムをUIからコード生成に適応させていない。
凍結したViTエンコーダとQwen3-VL-8BのLLMデコーダの間に挿入された軽量な学習圧縮モジュールであるUIPressを提案する。
UIPressは、奥行き分離可能な畳み込み、要素誘導空間再重み付け、トランスフォーマーの洗練を組み合わせ、${\sim}$6{,}700ビジュアルトークンを256の固定予算に圧縮する。
表現ギャップを埋めるためにデコーダ上のローランド適応(LoRA)とともに、システム全体が${\sim}$21.7Mのトレーニング可能なパラメータ(8Bベースモデルの0.26\%)を追加する。
同じベースモデルとDesign2Codeの4つのベースラインを公正に比較すると、256トークンのUIPressはCLIPスコア0.8127を達成し、圧縮されていないベースラインを+7.5\%、最も強い推論時間のメソッドを+4.6\%で上回り、9.1$\times$ time-tokenのスピードアップを提供する。
我々の知る限りでは、UI-to-Codeタスクのための最初のエンコーダ側の学習圧縮メソッドである。
関連論文リスト
- PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding [10.881130305325767]
PixelPruneは、予測符号化ベースの圧縮を通じてピクセルレベルの冗長性を利用する。
ピクセルロスレス圧縮と制御された損失圧縮をサポートする。
実験の結果、PixelPruneは最大4.2$times$推論のスピードアップを提供しながら、競争力のあるタスクの精度を維持していることがわかった。
論文 参考訳(メタデータ) (2026-04-01T13:33:27Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - Global Context Compression with Interleaved Vision-Text Transformation [12.971394377165767]
本稿では,前処理と推論の両方の段階でトークンを節約するグローバルコンテキスト圧縮について検討する。
入力テキストチャンクと視覚的エンコーディングとをインターリーブする新しいトランスフォーマーであるVIST2を提案する。
4$times$圧縮比で、結果として得られたモデルは長文タスクのベースラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2026-01-15T13:29:16Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。