論文の概要: EfficientUICoder: Efficient MLLM-based UI Code Generation via Input and Output Token Compression
- arxiv url: http://arxiv.org/abs/2509.12159v1
- Date: Mon, 15 Sep 2025 17:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.42581
- Title: EfficientUICoder: Efficient MLLM-based UI Code Generation via Input and Output Token Compression
- Title(参考訳): EfficientUICoder:入力および出力トークン圧縮による効率的なMLLMベースのUIコード生成
- Authors: Jingyu Xiao, Zhongyi Zhang, Yuxuan Wan, Yintong Huo, Yang Liu, Michael R. Lyu,
- Abstract要約: マルチモーダルな大規模言語モデルはUI2Codeタスクで例外的なパフォーマンスを示している。
これらのタスクは、大量の入力画像トークンと大量の出力コードトークンを必要とするため、計算オーバーヘッドが大幅に増加する。
3つのキーコンポーネントを持つ効率的なUIコード生成のための圧縮フレームワークであるEfficientUICoderを提案する。
- 参考スコア(独自算出の注目度): 40.699996393407204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models have demonstrated exceptional performance in UI2Code tasks, significantly enhancing website development efficiency. However, these tasks incur substantially higher computational overhead than traditional code generation due to the large number of input image tokens and extensive output code tokens required. Our comprehensive study identifies significant redundancies in both image and code tokens that exacerbate computational complexity and hinder focus on key UI elements, resulting in excessively lengthy and often invalid HTML files. We propose EfficientUICoder, a compression framework for efficient UI code generation with three key components. First, Element and Layout-aware Token Compression preserves essential UI information by detecting element regions and constructing UI element trees. Second, Region-aware Token Refinement leverages attention scores to discard low-attention tokens from selected regions while integrating high-attention tokens from unselected regions. Third, Adaptive Duplicate Token Suppression dynamically reduces repetitive generation by tracking HTML/CSS structure frequencies and applying exponential penalties. Extensive experiments show EfficientUICoderachieves a 55%-60% compression ratio without compromising webpage quality and delivers superior efficiency improvements: reducing computational cost by 44.9%, generated tokens by 41.4%, prefill time by 46.6%, and inference time by 48.8% on 34B-level MLLMs. Code is available at https://github.com/WebPAI/EfficientUICoder.
- Abstract(参考訳): マルチモーダルな大規模言語モデルはUI2Codeタスクにおいて例外的なパフォーマンスを示し、Webサイトの開発効率を大幅に向上させた。
しかし、これらのタスクは大量の入力画像トークンと大量の出力コードトークンを必要とするため、従来のコード生成よりもかなり高い計算オーバーヘッドを発生させる。
我々の包括的な研究は、計算複雑性を悪化させ、主要なUI要素に焦点を絞るイメージトークンとコードトークンの両方において、重大な冗長性を識別し、その結果、過度に長く、しばしば無効なHTMLファイルとなる。
3つのキーコンポーネントを持つ効率的なUIコード生成のための圧縮フレームワークであるEfficientUICoderを提案する。
まず、要素領域を検出し、UI要素ツリーを構築することで、要素とレイアウトを意識したToken Compressionが重要なUI情報を保存する。
第二に、リージョン対応のトークンリファインメントは注意スコアを利用して、選択されたリージョンからの低アテンショントークンを破棄し、選択されていないリージョンからの高アテンショントークンを統合する。
第三に、Adaptive Duplicate Token Suppressionは、HTML/CSS構造周波数を追跡し、指数的な罰則を適用することにより、繰り返し生成を動的に削減する。
大規模な実験では、Webページの品質を損なうことなく、55%-60%の圧縮比を実現し、計算コストを44.9%削減し、生成トークンを41.4%削減し、プリフィルタイムを46.6%、推論時間を34BレベルのMLLMで48.8%削減した。
コードはhttps://github.com/WebPAI/EfficientUICoder.comで入手できる。
関連論文リスト
- REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders [52.61034140869803]
Region Network (REN) は、ポイントプロンプトを用いて領域ベースの画像表現を生成するための高速で効果的なモデルである。
RENは、リージョントークンを直接生成する軽量モジュールを使用して、このボトルネックをバイパスする。
これはいくつかのクロスアテンションブロックを使用し、ポイントプロンプトをクエリとして取り、パッチベースのイメージエンコーダからキーと値として機能してリージョントークンを生成する。
論文 参考訳(メタデータ) (2025-05-23T17:59:33Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。