論文の概要: InfraMind: A Novel Exploration-based GUI Agentic Framework for Mission-critical Industrial Management
- arxiv url: http://arxiv.org/abs/2509.13704v1
- Date: Wed, 17 Sep 2025 05:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.725103
- Title: InfraMind: A Novel Exploration-based GUI Agentic Framework for Mission-critical Industrial Management
- Title(参考訳): InfraMind:ミッションクリティカル産業管理のための新しい探索型GUIエージェントフレームワーク
- Authors: Liangtao Lin, Zhaomeng Zhu, Tianwei Zhang, Yonggang Wen,
- Abstract要約: InfraMindは、産業管理システムに特化して設計された新しい探査ベースのGUIエージェントフレームワークである。
私たちのアプローチは、タスク成功率と運用効率の観点から、既存のフレームワークを一貫して上回ります。
- 参考スコア(独自算出の注目度): 15.42553917257021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mission-critical industrial infrastructure, such as data centers, increasingly depends on complex management software. Its operations, however, pose significant challenges due to the escalating system complexity, multi-vendor integration, and a shortage of expert operators. While Robotic Process Automation (RPA) offers partial automation through handcrafted scripts, it suffers from limited flexibility and high maintenance costs. Recent advances in Large Language Model (LLM)-based graphical user interface (GUI) agents have enabled more flexible automation, yet these general-purpose agents face five critical challenges when applied to industrial management, including unfamiliar element understanding, precision and efficiency, state localization, deployment constraints, and safety requirements. To address these issues, we propose InfraMind, a novel exploration-based GUI agentic framework specifically tailored for industrial management systems. InfraMind integrates five innovative modules to systematically resolve different challenges in industrial management: (1) systematic search-based exploration with virtual machine snapshots for autonomous understanding of complex GUIs; (2) memory-driven planning to ensure high-precision and efficient task execution; (3) advanced state identification for robust localization in hierarchical interfaces; (4) structured knowledge distillation for efficient deployment with lightweight models; and (5) comprehensive, multi-layered safety mechanisms to safeguard sensitive operations. Extensive experiments on both open-source and commercial DCIM platforms demonstrate that our approach consistently outperforms existing frameworks in terms of task success rate and operational efficiency, providing a rigorous and scalable solution for industrial management automation.
- Abstract(参考訳): データセンターのようなミッションクリティカルな産業インフラは、ますます複雑な管理ソフトウェアに依存している。
しかし、システムの複雑さのエスカレート、マルチベンダ統合、エキスパート演算子の不足など、その運用には重大な課題がある。
Robotic Process Automation(RPA)は手作りスクリプトによる部分的な自動化を提供するが、柔軟性と高いメンテナンスコストに悩まされている。
LLM(Large Language Model)ベースのグラフィカルユーザインタフェース(GUI)エージェントの最近の進歩により、より柔軟な自動化が可能になったが、これらの汎用エージェントは、不慣れな要素理解、精度と効率、状態ローカライゼーション、デプロイメント制約、安全要件を含む、産業管理に適用する際の5つの重要な課題に直面している。
これらの課題に対処するため,産業管理システムに特化した新しいGUIエージェントフレームワークであるInfraMindを提案する。
InfraMindは,(1)複雑なGUIの自律的理解のための仮想マシンスナップショットを用いた体系的探索,(2)高精度かつ効率的なタスク実行のためのメモリ駆動計画,(3)階層的インタフェースにおけるロバストなローカライゼーションのための高度な状態同定,(4)軽量モデルによる効率的なデプロイのための構造化知識蒸留,(5)機密操作の保護のための包括的多層安全機構,という,産業経営におけるさまざまな課題を体系的に解決するための5つの革新的なモジュールを統合している。
オープンソースと商用のDCIMプラットフォームに関する大規模な実験は、我々のアプローチがタスク成功率と運用効率の点で既存のフレームワークを一貫して上回り、産業管理自動化のための厳密でスケーラブルなソリューションを提供しています。
関連論文リスト
- MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - Agent-based Condition Monitoring Assistance with Multimodal Industrial Database Retrieval Augmented Generation [3.8451399765175016]
状態監視(CM)は、プロセス産業において信頼性と効率を確保する上で重要な役割を担います。
この研究は、大規模言語モデル(LLM)ベースの推論エージェントとCMを統合し、アナリストと業界のニーズに対処する。
我々は、マルチモーダル検索拡張生成(RAG)とCMデータ専用に設計された新しいベクトルストア構造を組み合わせたモジュラーフレームワークであるMindRAGを提案する。
論文 参考訳(メタデータ) (2025-06-10T21:04:18Z) - An LLM-enabled Multi-Agent Autonomous Mechatronics Design Framework [49.633199780510864]
本研究は, 機械設計, 最適化, エレクトロニクス, ソフトウェア工学の専門知識を統合した多エージェント自律メカトロニクス設計フレームワークを提案する。
このフレームワークは、言語駆動のワークフローを通じて運用され、構造化された人間のフィードバックを組み込んで、現実世界の制約下での堅牢なパフォーマンスを保証する。
完全に機能する自律型容器は、最適化された推進、コスト効率の高い電子機器、高度な制御を備えていた。
論文 参考訳(メタデータ) (2025-04-20T16:57:45Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - An Integrated Artificial Intelligence Operating System for Advanced Low-Altitude Aviation Applications [4.62967829580797]
本稿では,低高度航空に適した高性能人工知能オペレーティングシステムを提案する。
リアルタイムタスク実行、計算効率、シームレスなモジュールコラボレーションといった重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-28T01:24:16Z) - BMW Agents -- A Framework For Task Automation Through Multi-Agent Collaboration [0.0]
我々は、様々なドメインにわたる複雑なユースケースアプリケーションを扱う柔軟なエージェントエンジニアリングフレームワークの設計に重点を置いている。
提案するフレームワークは,産業用アプリケーションの信頼性を提供し,複数の自律エージェントに対して,スケーラブルでフレキシブルで協調的なワークフローを保証するためのテクニックを提供する。
論文 参考訳(メタデータ) (2024-06-28T16:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。