論文の概要: Can AI Make Energy Retrofit Decisions? An Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.06307v1
- Date: Mon, 08 Sep 2025 03:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.954999
- Title: Can AI Make Energy Retrofit Decisions? An Evaluation of Large Language Models
- Title(参考訳): AIは省エネ決定を下せるか? : 大規模言語モデルの評価
- Authors: Lei Shu, Dong Zhao,
- Abstract要約: 生成AI、特に大きな言語モデル(LLM)は、コンテキスト情報処理と実践的な読みやすいレコメンデーションの生成を支援する。
我々は,CO2削減の最大化(技術)と返済期間の最小化(社会技術)の2つの目的の下で,住宅の適合性決定に関する7つのLCMを評価した。
LLMは、多くのケースで効果的なレコメンデーションを生成し、トップ1マッチの最大54.5パーセントと、微調整なしでトップ5内92.8%に達する。
- 参考スコア(独自算出の注目度): 6.392935342375115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional approaches to building energy retrofit decision making suffer from limited generalizability and low interpretability, hindering adoption in diverse residential contexts. With the growth of Smart and Connected Communities, generative AI, especially large language models (LLMs), may help by processing contextual information and producing practitioner readable recommendations. We evaluate seven LLMs (ChatGPT, DeepSeek, Gemini, Grok, Llama, and Claude) on residential retrofit decisions under two objectives: maximizing CO2 reduction (technical) and minimizing payback period (sociotechnical). Performance is assessed on four dimensions: accuracy, consistency, sensitivity, and reasoning, using a dataset of 400 homes across 49 US states. LLMs generate effective recommendations in many cases, reaching up to 54.5 percent top 1 match and 92.8 percent within top 5 without fine tuning. Performance is stronger for the technical objective, while sociotechnical decisions are limited by economic trade offs and local context. Agreement across models is low, and higher performing models tend to diverge from others. LLMs are sensitive to location and building geometry but less sensitive to technology and occupant behavior. Most models show step by step, engineering style reasoning, but it is often simplified and lacks deeper contextual awareness. Overall, LLMs are promising assistants for energy retrofit decision making, but improvements in accuracy, consistency, and context handling are needed for reliable practice.
- Abstract(参考訳): エネルギーの再適合意思決定への従来のアプローチは、限定的な一般化性と低い解釈性に悩まされ、多様な住宅環境における採用を妨げる。
スマートコミュニティとコネクテッドコミュニティの成長により、生成AI、特に大きな言語モデル(LLM)は、コンテキスト情報処理や実践的なレコメンデーションの生成に役立ちます。
我々は,CO2削減の最大化(技術)と返済期間の最小化(社会技術)という2つの目的のもと,住宅の適合性決定の7つのLCM(ChatGPT,DeepSeek,Gemini,Grok,Llama,Claude)を評価した。
精度、一貫性、感度、推論の4つの次元で、49州にまたがる400世帯のデータセットを使用してパフォーマンスを評価する。
LLMは、多くのケースで効果的なレコメンデーションを生成し、トップ1マッチの最大54.5パーセントと、微調整なしでトップ5内92.8%に達する。
技術的目的のためにはパフォーマンスが強く、社会技術的決定は経済的なトレードオフや地域的な文脈によって制限される。
モデル間の合意は低く、より高いパフォーマンスのモデルは他のモデルと異なる傾向があります。
LLMは位置や構造に敏感だが、技術や占有行動には敏感ではない。
ほとんどのモデルは、ステップバイステップ、エンジニアリングスタイルの推論を示していますが、しばしば単純化され、より深いコンテキスト意識が欠如しています。
全体として、LLMは、エネルギーの再適合決定のための有望なアシスタントであるが、信頼性、一貫性、コンテキストハンドリングの改善は、信頼性の高い実践のために必要である。
関連論文リスト
- Green LLM Techniques in Action: How Effective Are Existing Techniques for Improving the Energy Efficiency of LLM-Based Applications in Industry? [2.3683790724077864]
大規模言語モデル(LLM)の急速な採用により、そのエネルギー消費に対する懸念が高まっている。
オランダのITサービス企業であるSchuberg Philisで、業界状況におけるアプリケーションを分析しました。
プロンプト最適化や2ビット量子化といったいくつかの手法は、エネルギー使用量を最大90%削減することができた。
他の品質を実質的に損なわずに大幅なエネルギー削減を達成した唯一の技術は、NvidiaのPrompt Task and Complexityによる小型で大規模なモデルコラボレーションであった。
論文 参考訳(メタデータ) (2026-01-05T19:35:29Z) - Large Language Newsvendor: Decision Biases and Cognitive Mechanisms [2.7070404673380817]
大規模言語モデル(LLM)は、ビジネス意思決定にますます統合されている。
LLMは人間の認知バイアスを再現し増幅する。
これは特にサプライチェーン管理のような高い運用状況において重要である。
論文 参考訳(メタデータ) (2025-12-14T04:51:53Z) - LLM-Cave: A benchmark and light environment for large language models reasoning and decision-making system [5.875252014518446]
LLM推論および意思決定システムのためのベンチマークおよび光環境であるLLM-Caveを紹介する。
実験では,主要な大言語モデルの逐次的推論能力,意思決定性能,計算効率を評価した。
論文 参考訳(メタデータ) (2025-11-27T16:26:54Z) - Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。
人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。
効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文 参考訳(メタデータ) (2025-06-14T05:55:19Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization [11.723967356904303]
本稿では,都市管理の効率化と透明性を高めるため,大規模言語モデル(LLM)に基づくエージェント(City-LEO)を提案する。
ヒューマンライクな意思決定プロセスでは、City-LEOは予測と最適化を相乗化するためにエンド・ツー・エンド(E2E)モデルも組み込んでいる。
計算結果から,City-LEOは実規模最適化問題に対するベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T14:25:08Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。