論文の概要: VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service
- arxiv url: http://arxiv.org/abs/2506.15755v1
- Date: Wed, 18 Jun 2025 08:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.76635
- Title: VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service
- Title(参考訳): VLMInferSlow: サービスとしての大規模視覚言語モデルの効率ロバスト性の評価
- Authors: Xiasi Wang, Tianliang Yao, Simin Chen, Runqi Wang, Lei YE, Kuofeng Gao, Yi Huang, Yuan Yao,
- Abstract要約: VLMInferSlowは、現実的なブラックボックス設定において、VLM効率の堅牢性を評価するための新しいアプローチである。
VLMInferSlowは、知覚不能な摂動を伴う逆画像を生成し、計算コストを最大128.47%向上させることを示す。
- 参考スコア(独自算出の注目度): 11.715844075786958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated great potential in real-world applications. While existing research primarily focuses on improving their accuracy, the efficiency remains underexplored. Given the real-time demands of many applications and the high inference overhead of VLMs, efficiency robustness is a critical issue. However, previous studies evaluate efficiency robustness under unrealistic assumptions, requiring access to the model architecture and parameters -- an impractical scenario in ML-as-a-service settings, where VLMs are deployed via inference APIs. To address this gap, we propose VLMInferSlow, a novel approach for evaluating VLM efficiency robustness in a realistic black-box setting. VLMInferSlow incorporates fine-grained efficiency modeling tailored to VLM inference and leverages zero-order optimization to search for adversarial examples. Experimental results show that VLMInferSlow generates adversarial images with imperceptible perturbations, increasing the computational cost by up to 128.47%. We hope this research raises the community's awareness about the efficiency robustness of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、現実世界のアプリケーションにおいて大きな可能性を実証している。
既存の研究は主に精度の向上に重点を置いているが、その効率性は未調査のままである。
多くのアプリケーションのリアルタイム要求とVLMの高い推論オーバーヘッドを考えると、効率の堅牢性は重要な問題である。
しかしながら、以前の研究では、非現実的な仮定の下で効率の堅牢性を評価し、モデルアーキテクチャとパラメータにアクセスする必要がある -- ML-as-a-service設定では、VLMが推論APIを介してデプロイされる非現実的なシナリオである。
このギャップに対処するため,現実的なブラックボックス環境下でのVLM効率性の評価手法であるVLMInferSlowを提案する。
VLMInferSlowは、VLM推論に適したきめ細かい効率のモデリングを取り入れ、ゼロ階最適化を利用して敵の例を探索する。
実験の結果、VLMInferSlowは知覚不能な摂動を伴う逆画像を生成し、計算コストを最大128.47%向上させた。
この研究は、VLMの効率性に対するコミュニティの認識を高めることを願っている。
関連論文リスト
- VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models [43.09726338623949]
Vision-Language-Action(VLA)モデルは、事前訓練された大規模なVision-Language Models(VLM)をポリシーバックボーンに統合する。
本稿では、VLMの選択と能力が下流のVLAポリシーのパフォーマンスにどのように変換されるかという、体系的に研究されることは滅多にない。
VLM4VLAは、汎用的なVLMを、学習可能なパラメータの小さなセットのみを用いてVLAポリシーに変換する、最小限の適応パイプラインである。
論文 参考訳(メタデータ) (2026-01-06T09:58:24Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models [19.344130974979503]
LVLM(Large Vision-Language Models)は大きな成功をおさめたが、その大きな計算要求は実際の展開を妨げている。
EffiVLM-Benchは絶対的な性能だけでなく、一般化や忠誠心も評価するための統一的なフレームワークである。
我々の実験と深部分析は、LVLMの加速のための最適戦略に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-31T09:10:43Z) - VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models [34.60772103760521]
視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文 参考訳(メタデータ) (2025-05-27T04:53:50Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning [57.285435980459205]
構成的視覚的推論アプローチは、エンド・ツー・エンドのVR手法よりも効果的な戦略として期待されている。
DWIM: ツールの使用状況を評価し, より訓練に有効である抽出を行う, 離散性を考慮したトレーニング生成手法を提案する。
Instruct-Masking fine-tuning — モデルに効果的なアクションをクローンすることのみをガイドし、より実用的なソリューションの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-25T01:57:59Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。