論文の概要: Cross-Domain Generalization of Multimodal LLMs for Global Photovoltaic Assessment
- arxiv url: http://arxiv.org/abs/2511.19537v1
- Date: Mon, 24 Nov 2025 10:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.081698
- Title: Cross-Domain Generalization of Multimodal LLMs for Global Photovoltaic Assessment
- Title(参考訳): グローバル太陽光発電評価のための多モードLCMのクロスドメイン一般化
- Authors: Muhao Guo, Yang Weng,
- Abstract要約: 本研究では,グローバルPV評価のための多モード大言語モデル(LLM)のクロスドメイン一般化について検討する。
構造化プロンプトと微調整を活用することで、モデルは統合スキーマ内の検出、ローカライゼーション、定量化を統合する。
F1 の測度を用いたクロスリージョン評価は,提案モデルが未確認領域における最小性能劣化を実現することを示す。
- 参考スコア(独自算出の注目度): 5.156484100374059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of distributed photovoltaic (PV) systems poses challenges for power grid management, as many installations remain undocumented. While satellite imagery provides global coverage, traditional computer vision (CV) models such as CNNs and U-Nets require extensive labeled data and fail to generalize across regions. This study investigates the cross-domain generalization of a multimodal large language model (LLM) for global PV assessment. By leveraging structured prompts and fine-tuning, the model integrates detection, localization, and quantification within a unified schema. Cross-regional evaluation using the $Δ$F1 metric demonstrates that the proposed model achieves the smallest performance degradation across unseen regions, outperforming conventional CV and transformer baselines. These results highlight the robustness of multimodal LLMs under domain shift and their potential for scalable, transferable, and interpretable global PV mapping.
- Abstract(参考訳): 分散太陽光発電(PV)システムの急速な拡張は、多くの設備が文書化されていないため、電力グリッド管理に課題をもたらす。
衛星画像はグローバルなカバレッジを提供するが、CNNやU-Netのような伝統的なコンピュータビジョン(CV)モデルは広範なラベル付きデータを必要とし、地域にわたって一般化することができない。
本研究では,グローバルPV評価のための多モード大言語モデル(LLM)のクロスドメイン一般化について検討する。
構造化プロンプトと微調整を活用することで、モデルは統合スキーマ内の検出、ローカライゼーション、定量化を統合する。
Δ$F1測定値を用いたクロスリージョン評価では,提案モデルが未確認領域で最小の性能劣化を達成し,従来のCVおよびトランスフォーマーベースラインを上回る性能を示した。
これらの結果は、ドメインシフト下でのマルチモーダルLLMの堅牢性と、拡張性、転送性、解釈可能なグローバルPVマッピングの可能性を強調している。
関連論文リスト
- Solar Photovoltaic Assessment with Large Language Model [5.156484100374059]
太陽パネル検出の課題を克服するために,大規模言語モデル (LLM) をどのように活用できるかを検討する。
LLMは、多段階の論理過程の困難を含む、ソーラーパネルの検出においていくつかの課題に直面している。
より効率的な出力標準化のためのタスク分解を組み込んだLLMフレームワークを用いたPVアセスメントを提案する。
論文 参考訳(メタデータ) (2025-07-25T10:26:29Z) - Globalization for Scalable Short-term Load Forecasting [7.654516721062505]
本稿では,データドリフトの存在下でのグローバルな負荷予測について検討する。
グローバリゼーション、データ不均一性、データドリフトがそれぞれどう影響するかを示す。
また,ピーク負荷予測におけるグローバリゼーションの役割と階層予測の可能性についても検討した。
論文 参考訳(メタデータ) (2025-07-15T20:58:14Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。