Fugu-MT 論文翻訳(概要): AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection

論文の概要: AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection

arxiv url: http://arxiv.org/abs/2601.04734v1
Date: Thu, 08 Jan 2026 08:56:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.12252
Title: AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection
Title（参考訳）: AIVD: 高精度かつ効率的な産業用視覚検出のための適応エッジクラウドコラボレーション
Authors: Yunqing Hu, Zheming Yang, Chang Zhao, Qi Guo, Meng Gao, Pengcheng Li, Wen Ji,
Abstract要約: 本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 15.419663374345845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) demonstrate exceptional capabilities in semantic understanding and visual reasoning, yet they still face challenges in precise object localization and resource-constrained edge-cloud deployment. To address this, this paper proposes the AIVD framework, which achieves unified precise localization and high-quality semantic generation through the collaboration between lightweight edge detectors and cloud-based MLLMs. To enhance the cloud MLLM's robustness against edge cropped-box noise and scenario variations, we design an efficient fine-tuning strategy with visual-semantic collaborative augmentation, significantly improving classification accuracy and semantic consistency. Furthermore, to maintain high throughput and low latency across heterogeneous edge devices and dynamic network conditions, we propose a heterogeneous resource-aware dynamic scheduling algorithm. Experimental results demonstrate that AIVD substantially reduces resource consumption while improving MLLM classification performance and semantic generation quality. The proposed scheduling strategy also achieves higher throughput and lower latency across diverse scenarios.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は、セマンティック理解と視覚的推論において例外的な能力を示すが、正確なオブジェクトローカライゼーションとリソース制約のあるエッジクラウドデプロイメントでは、依然として課題に直面している。そこで本研究では,軽量エッジ検出器とクラウドベースMLLMの協調により,高精度な局所化と高品質なセマンティック生成を実現するAIVDフレームワークを提案する。エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,視覚・セマンティック協調強化による効率的な微調整戦略を設計し,分類精度とセマンティック一貫性を著しく向上する。さらに、異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するために、異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。実験の結果,AIVDはMLLM分類性能とセマンティック生成品質を改善しつつ,資源消費を大幅に削減することがわかった。提案したスケジューリング戦略は、さまざまなシナリオで高いスループットと低レイテンシを実現する。

関連論文リスト

AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems [6.294240680169978]
災害時の無人航空機(UAV)は、CNNが提供できない複雑なクエリー可能な知性を必要とする。本稿では,適応型分割計算によるVLMデプロイメントを実現するフレームワークであるAVERYを紹介する。
論文参考訳（メタデータ） (2025-11-22T18:42:04Z)
Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文参考訳（メタデータ） (2025-10-11T05:11:21Z)
Heterogeneous Multi-agent Collaboration in UAV-assisted Mobile Crowdsensing Networks [6.226837215382989]
無人航空機(UAV)による移動式クラウドセンシング(MCS)は,データ収集において有望なパラダイムとして浮上している。我々は,センサ,通信,資源配分の効率的な調整を妨げる,スペクトル不足,デバイス計算,ユーザモビリティといった課題に対処する。
論文参考訳（メタデータ） (2025-09-28T02:13:19Z)
Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection [9.198326035948613]
本稿では,適応誘導に基づくエッジクラウド協調オブジェクト検出手法を提案する。レイテンシを79%以上削減し、低照度で非常に隠蔽されたシーンでは計算コストを70%削減できる。
論文参考訳（メタデータ） (2025-09-24T08:25:37Z)
Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文参考訳（メタデータ） (2025-09-03T18:05:02Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2023-12-26T18:46:14Z)
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。 VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文参考訳（メタデータ） (2022-10-09T01:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。