論文の概要: SAEC: Scene-Aware Enhanced Edge-Cloud Collaborative Industrial Vision Inspection with Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.17136v1
- Date: Sun, 21 Sep 2025 15:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.130524
- Title: SAEC: Scene-Aware Enhanced Edge-Cloud Collaborative Industrial Vision Inspection with Multimodal LLM
- Title(参考訳): SAEC:マルチモーダルLDMを用いたエッジクラウド協調産業視検査
- Authors: Yuhao Tian, Zheming Yang,
- Abstract要約: SAECはMLLMとの協調的な産業ビジョン検査フレームワークである。
85.11%、82.72%の精度で、Qwenを22.1%、20.8%、LLaVAを33.3%、31.6%の精度で上回っている。
また、ランタイムを最大22.4%削減し、正しい決定毎に40%-74%削減する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial vision inspection requires high accuracy under stringent resource constraints, yet existing approaches face a fundamental trade-off. Multimodal LLMs (MLLMs) deliver strong reasoning capabilities but incur prohibitive computational costs, while lightweight edge models often fail on complex cases. In this paper, we present SAEC, a scene-aware enhanced edge-cloud collaborative industrial vision inspection framework with MLLM. The framework is composed of three synergistic components: (1) Efficient MLLM Fine-Tuning for Complex Defect Inspection, (2) Lightweight Multiscale Scene-Complexity Estimation, and (3) Adaptive Edge-Cloud Scheduler. Together, these modules enable robust defect detection by tailoring multimodal reasoning to scene complexity and dynamically balancing computation between edge and cloud resources. Experimental results on MVTec AD and KSDD2 datasets demonstrate that SAEC attains 85.11% and 82.72% accuracy, surpassing Qwen by 22.1% and 20.8%, and LLaVA by 33.3% and 31.6%. It also reduces runtime by up to 22.4% and cuts energy per correct decision by 40%-74%. The code is available at https://github.com/YuHao-Tian/SAEC.
- Abstract(参考訳): 産業ビジョン検査は厳しい資源制約の下で高い精度を必要とするが、既存のアプローチは根本的なトレードオフに直面している。
マルチモーダル LLM (Multimodal LLMs) は強力な推論能力を提供するが、計算コストは禁じられている。
本稿では,シーン認識型エッジクラウド協調型産業用視覚検査フレームワークSAECとMLLMについて述べる。
このフレームワークは,(1)複雑な欠陥検査のための効率的なMLLMファインチューニング,(2)軽量マルチスケールシーン・複雑度推定,(3)適応エッジクラウドスケジューリングの3つの相乗的コンポーネントで構成されている。
これらのモジュールは、マルチモーダル推論を調整して、複雑性を発生させ、エッジとクラウドリソース間の計算を動的にバランスさせることで、堅牢な欠陥検出を可能にする。
MVTec ADとKSDD2データセットの実験結果は、SAECが85.11%と82.72%の精度に達し、Qwenを22.1%、20.8%、LLaVAを33.3%、31.6%上回ったことを示している。
また、ランタイムを最大22.4%削減し、正しい決定毎に40%-74%削減する。
コードはhttps://github.com/YuHao-Tian/SAECで入手できる。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution [18.314436803012434]
本稿では,モンテカルロ木探索(MCTS)に基づく中間推論ステップの動的検証と最適化を行うMCTS-INEを提案する。
SWE-bench LiteとSWE-bench Verifiedの実験は、我々のCoTデータセットで微調整されたLLMがベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-06-15T05:42:01Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning [1.3124513975412255]
産業異常検出(IAD)は欠陥を特定することで製品品質を確保するために重要である。
既存の視覚言語モデル(VLM)とMLLM(Multimodal Large Language Models)はいくつかの制限に対処するが、マスクアノテーションに依存している。
授業の不均衡に対処するために,授業中に稀な欠陥パターンを動的に優先順位付けする報酬関数を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:52:35Z) - MAAM: A Lightweight Multi-Agent Aggregation Module for Efficient Image Classification Based on the MindSpore Framework [4.307728769243765]
我々はMindSporeフレームワークと統合された軽量アテンションアーキテクチャを提案する。
Multi-Agent Aggregation Module (MAAM) は3つの並列エージェントブランチを独立にパラメータ化してヘテロジニアスな特徴を抽出する。
MindSporeの動的計算グラフと演算子融合を用いて、MAAMはCIFAR-10データセット上で87.0%の精度を達成する。
論文 参考訳(メタデータ) (2025-04-18T09:19:07Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。