論文の概要: AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection
- arxiv url: http://arxiv.org/abs/2601.04734v1
- Date: Thu, 08 Jan 2026 08:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.12252
- Title: AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection
- Title(参考訳): AIVD: 高精度かつ効率的な産業用視覚検出のための適応エッジクラウドコラボレーション
- Authors: Yunqing Hu, Zheming Yang, Chang Zhao, Qi Guo, Meng Gao, Pengcheng Li, Wen Ji,
- Abstract要約: 本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.419663374345845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate exceptional capabilities in semantic understanding and visual reasoning, yet they still face challenges in precise object localization and resource-constrained edge-cloud deployment. To address this, this paper proposes the AIVD framework, which achieves unified precise localization and high-quality semantic generation through the collaboration between lightweight edge detectors and cloud-based MLLMs. To enhance the cloud MLLM's robustness against edge cropped-box noise and scenario variations, we design an efficient fine-tuning strategy with visual-semantic collaborative augmentation, significantly improving classification accuracy and semantic consistency. Furthermore, to maintain high throughput and low latency across heterogeneous edge devices and dynamic network conditions, we propose a heterogeneous resource-aware dynamic scheduling algorithm. Experimental results demonstrate that AIVD substantially reduces resource consumption while improving MLLM classification performance and semantic generation quality. The proposed scheduling strategy also achieves higher throughput and lower latency across diverse scenarios.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、セマンティック理解と視覚的推論において例外的な能力を示すが、正確なオブジェクトローカライゼーションとリソース制約のあるエッジクラウドデプロイメントでは、依然として課題に直面している。
そこで本研究では,軽量エッジ検出器とクラウドベースMLLMの協調により,高精度な局所化と高品質なセマンティック生成を実現するAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,視覚・セマンティック協調強化による効率的な微調整戦略を設計し,分類精度とセマンティック一貫性を著しく向上する。
さらに、異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するために、異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
実験の結果,AIVDはMLLM分類性能とセマンティック生成品質を改善しつつ,資源消費を大幅に削減することがわかった。
提案したスケジューリング戦略は、さまざまなシナリオで高いスループットと低レイテンシを実現する。
関連論文リスト
- Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation [48.88299242238335]
CM-ReID(Cross-Modal Re-identification)は、特別なクラウドモデルの断片化されたエコシステムを維持するため、課題に直面している。
我々は,強力なクラウドエッジアーキテクチャに基づく統一フレームワークであるMLLMEmbed-ReIDを提案する。
論文 参考訳(メタデータ) (2026-02-13T13:48:08Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge [12.772499009055194]
視覚言語モデル(VLM)のための軽量で量子化された適応型フレームワークを提案する。
本稿では、SHQ(Selective Hybrid Quantization)と、リソース制約のあるハードウェア上での堅牢で効率的なVLMデプロイメントを実現するために、量子化・勾配なし適応機構を導入する。
実験の結果、LQAは全体の適応性能を4.5%改善し、メモリ使用量を減らし、勾配ベースのTTA法よりも大幅に向上した。
論文 参考訳(メタデータ) (2026-02-08T07:37:37Z) - AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems [6.294240680169978]
災害時の無人航空機(UAV)は、CNNが提供できない複雑なクエリー可能な知性を必要とする。
本稿では,適応型分割計算によるVLMデプロイメントを実現するフレームワークであるAVERYを紹介する。
論文 参考訳(メタデータ) (2025-11-22T18:42:04Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - Heterogeneous Multi-agent Collaboration in UAV-assisted Mobile Crowdsensing Networks [6.226837215382989]
無人航空機(UAV)による移動式クラウドセンシング(MCS)は,データ収集において有望なパラダイムとして浮上している。
我々は,センサ,通信,資源配分の効率的な調整を妨げる,スペクトル不足,デバイス計算,ユーザモビリティといった課題に対処する。
論文 参考訳(メタデータ) (2025-09-28T02:13:19Z) - Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection [9.198326035948613]
本稿では,適応誘導に基づくエッジクラウド協調オブジェクト検出手法を提案する。
レイテンシを79%以上削減し、低照度で非常に隠蔽されたシーンでは計算コストを70%削減できる。
論文 参考訳(メタデータ) (2025-09-24T08:25:37Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。