論文の概要: Intelligent Power Grid Design Review via Active Perception-Enabled Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14261v1
- Date: Mon, 24 Nov 2025 11:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.809089
- Title: Intelligent Power Grid Design Review via Active Perception-Enabled Multimodal Large Language Models
- Title(参考訳): アクティブ知覚型マルチモーダル大言語モデルによるインテリジェントグリッド設計のレビュー
- Authors: Taoliang Tan, Chengwei Ma, Zhen Tian, Zhao Lin, Dongdong Li, Si Shi,
- Abstract要約: 本稿では,インテリジェントグリッド描画のための新しい3段階フレームワークを提案する。
事前訓練されたマルチモーダル大言語モデル(MLLM)によって、高度なプロンプトエンジニアリングによって駆動される。
実世界の電力グリッド描画に関する予備的な結果は、我々のアプローチがMLLMのマクロな意味情報の把握能力を大幅に向上させることを示している。
- 参考スコア(独自算出の注目度): 15.901293243682694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intelligent review of power grid engineering design drawings is crucial for power system safety. However, current automated systems struggle with ultra-high-resolution drawings due to high computational demands, information loss, and a lack of holistic semantic understanding for design error identification. This paper proposes a novel three-stage framework for intelligent power grid drawing review, driven by pre-trained Multimodal Large Language Models (MLLMs) through advanced prompt engineering. Mimicking the human expert review process, the first stage leverages an MLLM for global semantic understanding to intelligently propose domain-specific semantic regions from a low-resolution overview. The second stage then performs high-resolution, fine-grained recognition within these proposed regions, acquiring detailed information with associated confidence scores. In the final stage, a comprehensive decision-making module integrates these confidence-aware results to accurately diagnose design errors and provide a reliability assessment. Preliminary results on real-world power grid drawings demonstrate our approach significantly enhances MLLM's ability to grasp macroscopic semantic information and pinpoint design errors, showing improved defect discovery accuracy and greater reliability in review judgments compared to traditional passive MLLM inference. This research offers a novel, prompt-driven paradigm for intelligent and reliable power grid drawing review.
- Abstract(参考訳): 電力グリッド設計図面のインテリジェントなレビューは、電力系統の安全性に不可欠である。
しかし、現在の自動システムは、高い計算要求、情報損失、および設計ミス識別のための全体論的意味理解の欠如により、超高精細な描画に苦慮している。
本稿では,事前学習型マルチモーダル大規模言語モデル(MLLM)による知的電力グリッド図面レビューのための新しい3段階フレームワークを提案する。
人間の専門家のレビュープロセスを模倣し、第1段階はMLLMを利用してグローバルな意味理解を行い、低解像度の概観からドメイン固有の意味領域をインテリジェントに提案する。
第2段階は、これらの領域内で高分解能できめ細かい認識を行い、関連する信頼度スコアで詳細な情報を取得する。
最終段階では、総合的な意思決定モジュールがこれらの信頼性認識結果を統合し、設計ミスを正確に診断し、信頼性評価を提供する。
実世界の電力グリッド描画における予備的な結果から,MLLMのマクロ的意味情報とピンポイント設計誤差の把握能力は向上し,従来のパッシブMLLM推論と比較して,欠陥発見精度と信頼性が向上した。
この研究は、インテリジェントで信頼性の高い電力グリッド描画レビューのための、新しい、即時駆動のパラダイムを提供する。
関連論文リスト
- Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism [10.17375002962432]
本研究では2つの重要な革新と統合された視覚言語モデル(VLM)フレームワークを提案する。
DRISは、画像の内容の複雑さに応じて、計算資源を適応的に割り当てる粗大なアプローチを採用している。
MS-VLAMは、オブジェクト、ローカルリージョン、グローバルレベルをカバーする3層アライメント機構を構築する。
論文 参考訳(メタデータ) (2025-12-29T06:51:20Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - GridMind: LLMs-Powered Agents for Power System Analysis and Operations [3.7568206336846663]
本稿では,大規模言語モデル(LLM)を決定論的工学的解法と統合し,対話型科学計算による電力系統解析を実現する多エージェントAIシステムを提案する。
GridMindはワークフローの統合、知識アクセシビリティ、コンテキスト保存、専門家による意思決定支援強化に対処する。
この研究は、エージェントAIを科学計算の実行可能なパラダイムとして確立し、会話インターフェースがアクセシビリティを向上し、重要なエンジニアリングアプリケーションに不可欠な数値的な厳密さを保っていることを実証する。
論文 参考訳(メタデータ) (2025-09-02T16:42:18Z) - Information Security Based on LLM Approaches: A Review [3.292159069489852]
大規模言語モデル(LLM)は、情報セキュリティの分野で幅広い応用可能性を示している。
本稿では,ニューラルネットワークとTransformerアーキテクチャに基づいて,大規模言語モデルの技術的基盤を分析する。
大規模言語モデリングの導入は,検出精度の向上とセキュリティシステムの誤警報率の低減に有効である。
論文 参考訳(メタデータ) (2025-07-24T09:09:36Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - An Adaptive End-to-End IoT Security Framework Using Explainable AI and LLMs [1.9662978733004601]
本稿では,機械学習(ML),説明可能なAI(XAI),大規模言語モデル(LLM)を活用した,リアルタイムIoT攻撃検出および応答のための革新的なフレームワークを提案する。
私たちのエンドツーエンドフレームワークは、モデル開発からデプロイメントへのシームレスな移行を促進するだけでなく、既存の研究でしばしば欠落している現実世界のアプリケーション機能も表しています。
論文 参考訳(メタデータ) (2024-09-20T03:09:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。