論文の概要: Input-Adaptive Visual Preprocessing for Efficient Fast Vision-Language Model Inference
- arxiv url: http://arxiv.org/abs/2512.20839v1
- Date: Tue, 23 Dec 2025 23:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.634416
- Title: Input-Adaptive Visual Preprocessing for Efficient Fast Vision-Language Model Inference
- Title(参考訳): 高速ビジョンランゲージモデル推論のための入力適応型視覚前処理
- Authors: Putu Indah Githa Cahyani, Komang David Dananjaya Suartana, Novanto Yudistira,
- Abstract要約: 本稿では,画像コンテンツ特性に基づいて,入力解像度と空間範囲を適応的に調整する視覚前処理手法を提案する。
提案手法は、コンテンツ認識画像解析、適応解像度選択、およびコンテンツ認識トリミングを組み合わせることで、視覚符号化前の視覚的冗長性を低減する。
実験結果から,適応的前処理は画像毎の推測時間を50%以上削減し,視覚トークン数の55%以上を連続的に減少させることがわかった。
- 参考スコア(独自算出の注目度): 2.8292841621378844
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong performance on multimodal reasoning tasks, but their deployment remains challenging due to high inference latency and computational cost, particularly when processing high-resolution visual inputs. While recent architectures such as FastVLM improve efficiency through optimized vision encoders, existing pipelines still rely on static visual preprocessing, leading to redundant computation for visually simple inputs. In this work, we propose an adaptive visual preprocessing method that dynamically adjusts input resolution and spatial coverage based on image content characteristics. The proposed approach combines content-aware image analysis, adaptive resolution selection, and content-aware cropping to reduce visual redundancy prior to vision encoding. Importantly, the method is integrated with FastVLM without modifying its architecture or requiring retraining. We evaluate the proposed method on a subset of the DocVQA dataset in an inference-only setting, focusing on efficiency-oriented metrics. Experimental results show that adaptive preprocessing reduces per-image inference time by over 50\%, lowers mean full generation time, and achieves a consistent reduction of more than 55\% in visual token count compared to the baseline pipeline. These findings demonstrate that input-aware preprocessing is an effective and lightweight strategy for improving deployment-oriented efficiency of vision-language models. To facilitate reproducibility, our implementation is provided as a fork of the FastVLM repository, incorporating the files for the proposed method, and is available at https://github.com/kmdavidds/mlfastlm.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル推論タスクにおいて強力な性能を示してきたが、特に高解像度の視覚入力を処理する場合、高い推論遅延と計算コストのため、その展開は依然として困難である。
FastVLMのような最近のアーキテクチャでは、最適化された視覚エンコーダによって効率が向上しているが、既存のパイプラインはまだ静的な視覚前処理に依存しており、視覚的に単純な入力に対する冗長な計算に繋がる。
本研究では,画像コンテンツ特性に基づいて入力解像度と空間カバレッジを動的に調整する適応型視覚前処理手法を提案する。
提案手法は、コンテンツ認識画像解析、適応解像度選択、およびコンテンツ認識トリミングを組み合わせることで、視覚符号化前の視覚的冗長性を低減する。
重要なことに、この手法はアーキテクチャの変更や再トレーニングを必要とせず、FastVLMと統合されている。
提案手法はDocVQAデータセットのサブセットを推論のみの設定で評価し,効率志向の指標に着目した。
実験結果から,適応的前処理は画像毎の推論時間を50%以上削減し,全生成時間を低くし,ベースラインパイプラインと比較して55倍以上の視覚トークン数で一貫した削減を実現することがわかった。
これらの結果から,インプット・アウェア・プレプロセッシングは視覚言語モデルのデプロイメント指向の効率向上に有効かつ軽量な戦略であることが示唆された。
我々はFastVLMリポジトリのフォークとして,提案したメソッドのファイルを組み込んだ実装を行い,https://github.com/kmdavidds/mlfastlmで公開している。
関連論文リスト
- AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。
本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-03T13:43:30Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。