論文の概要: Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection
- arxiv url: http://arxiv.org/abs/2509.19875v1
- Date: Wed, 24 Sep 2025 08:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.73361
- Title: Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection
- Title(参考訳): エッジクラウドオブジェクト検出のためのマルチモーダルLLMによる適応誘導
- Authors: Yunqing Hu, Zheming Yang, Chang Zhao, Wen Ji,
- Abstract要約: 本稿では,適応誘導に基づくエッジクラウド協調オブジェクト検出手法を提案する。
レイテンシを79%以上削減し、低照度で非常に隠蔽されたシーンでは計算コストを70%削減できる。
- 参考スコア(独自算出の注目度): 9.198326035948613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional object detection methods face performance degradation challenges in complex scenarios such as low-light conditions and heavy occlusions due to a lack of high-level semantic understanding. To address this, this paper proposes an adaptive guidance-based semantic enhancement edge-cloud collaborative object detection method leveraging Multimodal Large Language Models (MLLM), achieving an effective balance between accuracy and efficiency. Specifically, the method first employs instruction fine-tuning to enable the MLLM to generate structured scene descriptions. It then designs an adaptive mapping mechanism that dynamically converts semantic information into parameter adjustment signals for edge detectors, achieving real-time semantic enhancement. Within an edge-cloud collaborative inference framework, the system automatically selects between invoking cloud-based semantic guidance or directly outputting edge detection results based on confidence scores. Experiments demonstrate that the proposed method effectively enhances detection accuracy and efficiency in complex scenes. Specifically, it can reduce latency by over 79% and computational cost by 70% in low-light and highly occluded scenes while maintaining accuracy.
- Abstract(参考訳): 従来のオブジェクト検出手法では、高レベルのセマンティック理解が欠如しているため、低照度条件や重閉塞といった複雑なシナリオで性能劣化に直面する。
そこで本稿では,MLLM(Multimodal Large Language Models)を利用した適応誘導型セマンティックエンハンスメントエッジクラウド協調オブジェクト検出手法を提案する。
具体的には、まず命令微調整を用いて、MLLMが構造化されたシーン記述を生成する。
その後、適応マッピング機構を設計し、セマンティック情報をエッジ検出器のパラメータ調整信号に動的に変換し、リアルタイムなセマンティックエンハンスメントを実現する。
エッジクラウド協調推論フレームワーク内では、クラウドベースのセマンティックガイダンスを呼び出すか、信頼度スコアに基づいてエッジ検出結果を直接出力するかを自動的に選択する。
実験により,提案手法は複雑なシーンにおける検出精度と効率を効果的に向上することを示した。
具体的には、レイテンシを79%以上削減し、計算コストを70%削減する。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization [4.700604993101454]
ADAPTはビームサーチと適応勾配誘導突然変異を組み合わせたハイブリッド手法である。
ADAPTは、レイヤと潜伏型をまたいだ先行メソッドよりも一貫して優れていることを示す。
この結果から, LLM の機能視覚化は難易度が高いが, ドメインに適した設計仮定が必要であることが確認された。
論文 参考訳(メタデータ) (2026-02-19T22:03:25Z) - Robust Subpixel Localization of Diagonal Markers in Large-Scale Navigation via Multi-Layer Screening and Adaptive Matching [18.710429100680006]
本稿では,大規模飛行航法における局所化故障に対処する,頑健で高精度な位置決め手法を提案する。
提案手法は,多層コーナースクリーニングと適応テンプレートマッチングを組み合わせた3層フレームワークを用いる。
実験により,複雑な大規模環境下での対角線マーカーの抽出と局所化における手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-13T02:51:31Z) - AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection [15.419663374345845]
本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:56:07Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Fints: Efficient Inference-Time Personalization for LLMs with Fine-Grained Instance-Tailored Steering [49.212940215720884]
本稿では,ユーザデータからサンプルレベルの干渉を生成し,モデルの前方通過に注入してパーソナライズするステアリングフレームワークを提案する。
本手法は,対話モードやコンテキスト長の異なる環境において,ロバスト性を保ちながら,高速シフト環境におけるパーソナライズ性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-31T06:01:04Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing [6.579756339673344]
OOS(Out-of-scope)インテント検出は、タスク指向対話システム(TODS)において重要な課題である。
我々は,不確実性モデリングと細調整された大言語モデル(LLM)を組み合わせて,効率よく正確なOOS検出を行う,新しい単純なモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-02T09:51:41Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - SCA: Improve Semantic Consistent in Unrestricted Adversarial Attacks via DDPM Inversion [27.7252951625431]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。
SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。
我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-10-03T06:25:53Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。