論文の概要: An LLM-Based Digital Twin for Optimizing Human-in-the Loop Systems
- arxiv url: http://arxiv.org/abs/2403.16809v1
- Date: Mon, 25 Mar 2024 14:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 19:53:16.547548
- Title: An LLM-Based Digital Twin for Optimizing Human-in-the Loop Systems
- Title(参考訳): ループシステム最適化のためのLCMを用いたディジタルツイン
- Authors: Hanqing Yang, Marie Siew, Carlee Joe-Wong,
- Abstract要約: 本稿では,ショッピングモールにおける多様な集団の行動と熱的嗜好を模倣するために,大規模言語モデル(LLM)を用いたケーススタディを提案する。
集約された熱嗜好は、エージェント・イン・ザ・ループに基づく強化学習アルゴリズムであるAitL-RLに統合される。
以上の結果から,LLMは大規模オープンスペース内での複雑な人口移動をシミュレートできることがわかった。
- 参考スコア(独自算出の注目度): 13.388869442538399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing prevalence of Cyber-Physical Systems and the Internet of Things (CPS-IoT) applications and Foundation Models are enabling new applications that leverage real-time control of the environment. For example, real-time control of Heating, Ventilation and Air-Conditioning (HVAC) systems can reduce its usage when not needed for the comfort of human occupants, hence reducing energy consumption. Collecting real-time feedback on human preferences in such human-in-the-loop (HITL) systems, however, is difficult in practice. We propose the use of large language models (LLMs) to deal with the challenges of dynamic environments and difficult-to-obtain data in CPS optimization. In this paper, we present a case study that employs LLM agents to mimic the behaviors and thermal preferences of various population groups (e.g. young families, the elderly) in a shopping mall. The aggregated thermal preferences are integrated into an agent-in-the-loop based reinforcement learning algorithm AitL-RL, which employs the LLM as a dynamic simulation of the physical environment to learn how to balance between energy savings and occupant comfort. Our results show that LLMs are capable of simulating complex population movements within large open spaces. Besides, AitL-RL demonstrates superior performance compared to the popular existing policy of set point control, suggesting that adaptive and personalized decision-making is critical for efficient optimization in CPS-IoT applications. Through this case study, we demonstrate the potential of integrating advanced Foundation Models like LLMs into CPS-IoT to enhance system adaptability and efficiency. The project's code can be found on our GitHub repository.
- Abstract(参考訳): サイバー物理システムとモノのインターネット(CPS-IoT)アプリケーションとファンデーションモデルの普及は、環境のリアルタイム制御を活用する新しいアプリケーションを可能にしている。
例えば、HVAC(Heating, Ventilation and Air-Conditioning)システムのリアルタイム制御は、人間の快適さを必要とせず、エネルギー消費を減らすことができる。
しかし,Human-in-the-loop(HITL)システムでは,人間の好みに対するリアルタイムフィードバックの収集は困難である。
そこで我々は,CPS最適化における動的環境と困難データを扱うために,大規模言語モデル(LLM)を提案する。
本稿では,ショッピングモールにおける多様な集団(若年家族,高齢者など)の行動と熱的嗜好を模倣するLLMエージェントを用いたケーススタディを提案する。
循環型強化学習アルゴリズムであるAitL-RLは、LLMを物理環境の動的シミュレーションとして利用し、省エネと居住快適性のバランスをとる方法を学ぶ。
以上の結果から,LLMは大規模オープンスペース内での複雑な人口移動をシミュレートできることがわかった。
さらに、AitL-RLは、一般的なセットポイント制御のポリシーよりも優れたパフォーマンスを示し、適応性とパーソナライズされた意思決定が、CPS-IoTアプリケーションの効率的な最適化に重要であることを示唆している。
このケーススタディを通じて、システム適応性と効率を高めるために、LLMのような高度なファンデーションモデルをCPS-IoTに統合する可能性を実証する。
プロジェクトのコードはGitHubリポジトリにある。
関連論文リスト
- Constrained Reinforcement Learning for Safe Heat Pump Control [24.6591923448048]
異なる用途のインタフェースを提供する新しいビルディングシミュレータI4Bを提案する。
本研究では,線形平滑ログバリア関数 (CSAC-LB) を用いた制約付きソフトアクタ・クリティカルというモデルレス制約付きRLアルゴリズムを加熱最適化問題に適用する。
ベースラインアルゴリズムに対するベンチマークは、CSAC-LBのデータ探索、制約満足度、性能における効率を示す。
論文 参考訳(メタデータ) (2024-09-29T14:15:13Z) - Adaptive Self-Supervised Learning Strategies for Dynamic On-Device LLM Personalization [3.1944843830667766]
大規模言語モデル(LLM)は私たちがテクノロジと対話する方法に革命をもたらしたが、個々のユーザの好みに対するパーソナライズは依然として大きな課題である。
本稿では,LSMを動的にパーソナライズするために自己指導型学習技術を利用する適応型自己監督学習戦略(ASLS)を提案する。
論文 参考訳(メタデータ) (2024-09-25T14:35:06Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Reinforcement Learning Control of Robotic Knee with Human in the Loop by
Flexible Policy Iteration [17.365135977882215]
本研究は,ポリシーアルゴリズムに革新的な特徴を導入することで,重要な空白を埋める。
本稿では,近似値関数の収束,解の最適性,システムの安定性などのシステムレベルの性能を示す。
論文 参考訳(メタデータ) (2020-06-16T09:09:48Z) - Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。
このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文 参考訳(メタデータ) (2020-04-20T23:32:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。