論文の概要: AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution
- arxiv url: http://arxiv.org/abs/2604.15622v1
- Date: Fri, 17 Apr 2026 02:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.703716
- Title: AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution
- Title(参考訳): AdaVFM: LLMガイドによるエッジインテリジェンスのためのAdaptive Vision Foundation Models
- Authors: Yiwei Zhao, Yi Zheng, Huapeng Su, Jieyu Lin, Stefano Ambrogio, Cijo Jose, Michaël Ramamonjisoa, Patrick Labatut, Barbara De Salvo, Chiao Liu, Phillip B. Gibbons, Ziyun Li,
- Abstract要約: 本稿では,言語対応VFMのデバイス上での効率的な推論のための適応型フレームワークであるAdaVFMを提案する。
AdaVFMは言語対応のVFMにNAS(Neural Architecture Search)を統合し、実行中に軽量な実行を可能にする。
クラウド上にデプロイされるマルチモーダル言語モデル(LLM)は、コンテキスト認識エージェントによるランタイム制御を可能にする。
- 参考スコア(独自算出の注目度): 16.961739475497623
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language-aligned vision foundation models (VFMs) enable versatile visual understanding for always-on contextual AI, but their deployment on edge devices is hindered by strict latency and power constraints. We present AdaVFM, an adaptive framework for efficient on-device inference of language-aligned VFMs that dynamically adjusts computation based on scene context and task complexity. Our key insight is that the effect of model size reduction on performance is task-dependent in vision applications, motivating a runtime-adaptive execution strategy. AdaVFM integrates neural architecture search (NAS) into the language-aligned VFM backbone to enable lightweight subnet execution during runtime. A multimodal large language model (LLM) deployed on the cloud enables runtime control with a context-aware agent. This synergy allows efficient model adaptation under diverse conditions while maintaining strong accuracy. Extensive experiments on zero-shot classification and open-vocabulary segmentation demonstrate that AdaVFM achieves state-of-the-art accuracy-efficiency trade-offs, surpassing prior baselines by up to $7.9\%$ in acc@1 on IN1K and $5.2\%$ mIoU on ADE20K over the best models of comparable VFM sizes. For models with similar accuracy, AdaVFM further reduces average FLOPs by up to $77.9\%$.
- Abstract(参考訳): VFM(Language-aligned vision foundation model)は、常時オンのコンテキストAIに対して汎用的な視覚的理解を可能にするが、エッジデバイスへのデプロイメントは、厳格なレイテンシと電力制約によって妨げられる。
本稿では,シーンコンテキストとタスクの複雑さに基づいて動的に計算を調整する言語対応VFMのデバイス上での効率的な推論フレームワークであるAdaVFMを提案する。
私たちの重要な洞察は、モデルサイズ削減がパフォーマンスに与える影響は、視覚アプリケーションにおいてタスク依存であり、実行時適応型実行戦略を動機付けているということです。
AdaVFMは言語対応のVFMバックボーンにニューラルアーキテクチャサーチ(NAS)を統合し、実行中に軽量なサブネット実行を可能にする。
クラウド上にデプロイされるマルチモーダルな大規模言語モデル(LLM)は、コンテキスト認識エージェントによるランタイム制御を可能にする。
このシナジーは、強い精度を維持しながら、様々な条件下で効率的なモデル適応を可能にする。
ゼロショット分類とオープンボキャブラリセグメンテーションに関する大規模な実験により、AdaVFMは最先端の精度と効率のトレードオフを達成し、IN1Kのcc@1で7.9 %、ADE20KのmOoUで5.2 %を突破した。
同様の精度のモデルでは、AdaVFM は平均 FLOP を 7.9 %$ まで下げる。
関連論文リスト
- Firebolt-VL: Efficient Vision-Language Understanding with Cross-Modality Modulation [7.6937364614883625]
Firebolt-VLは、TransformerベースのデコーダをLiquid Foundation Model (LFM)デコーダに置き換える効率的な視覚言語モデルである。
そこで本稿では,テキストトークンと画像パッチの軽量な相関関係を計算するToken-Grid相関モジュールを提案する。
論文 参考訳(メタデータ) (2026-04-06T10:25:16Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。