論文の概要: Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection
- arxiv url: http://arxiv.org/abs/2509.19875v1
- Date: Wed, 24 Sep 2025 08:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.73361
- Title: Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection
- Title(参考訳): エッジクラウドオブジェクト検出のためのマルチモーダルLLMによる適応誘導
- Authors: Yunqing Hu, Zheming Yang, Chang Zhao, Wen Ji,
- Abstract要約: 本稿では,適応誘導に基づくエッジクラウド協調オブジェクト検出手法を提案する。
レイテンシを79%以上削減し、低照度で非常に隠蔽されたシーンでは計算コストを70%削減できる。
- 参考スコア(独自算出の注目度): 9.198326035948613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional object detection methods face performance degradation challenges in complex scenarios such as low-light conditions and heavy occlusions due to a lack of high-level semantic understanding. To address this, this paper proposes an adaptive guidance-based semantic enhancement edge-cloud collaborative object detection method leveraging Multimodal Large Language Models (MLLM), achieving an effective balance between accuracy and efficiency. Specifically, the method first employs instruction fine-tuning to enable the MLLM to generate structured scene descriptions. It then designs an adaptive mapping mechanism that dynamically converts semantic information into parameter adjustment signals for edge detectors, achieving real-time semantic enhancement. Within an edge-cloud collaborative inference framework, the system automatically selects between invoking cloud-based semantic guidance or directly outputting edge detection results based on confidence scores. Experiments demonstrate that the proposed method effectively enhances detection accuracy and efficiency in complex scenes. Specifically, it can reduce latency by over 79% and computational cost by 70% in low-light and highly occluded scenes while maintaining accuracy.
- Abstract(参考訳): 従来のオブジェクト検出手法では、高レベルのセマンティック理解が欠如しているため、低照度条件や重閉塞といった複雑なシナリオで性能劣化に直面する。
そこで本稿では,MLLM(Multimodal Large Language Models)を利用した適応誘導型セマンティックエンハンスメントエッジクラウド協調オブジェクト検出手法を提案する。
具体的には、まず命令微調整を用いて、MLLMが構造化されたシーン記述を生成する。
その後、適応マッピング機構を設計し、セマンティック情報をエッジ検出器のパラメータ調整信号に動的に変換し、リアルタイムなセマンティックエンハンスメントを実現する。
エッジクラウド協調推論フレームワーク内では、クラウドベースのセマンティックガイダンスを呼び出すか、信頼度スコアに基づいてエッジ検出結果を直接出力するかを自動的に選択する。
実験により,提案手法は複雑なシーンにおける検出精度と効率を効果的に向上することを示した。
具体的には、レイテンシを79%以上削減し、計算コストを70%削減する。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing [6.579756339673344]
OOS(Out-of-scope)インテント検出は、タスク指向対話システム(TODS)において重要な課題である。
我々は,不確実性モデリングと細調整された大言語モデル(LLM)を組み合わせて,効率よく正確なOOS検出を行う,新しい単純なモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-02T09:51:41Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - SCA: Improve Semantic Consistent in Unrestricted Adversarial Attacks via DDPM Inversion [27.7252951625431]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。
SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。
我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-10-03T06:25:53Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。