Fugu-MT 論文翻訳(概要): ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Smart Buildings

論文の概要: ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Smart Buildings

arxiv url: http://arxiv.org/abs/2305.00365v1
Date: Sun, 30 Apr 2023 01:52:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 15:45:50.906104
Title: ReLBOT: A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Smart Buildings
Title（参考訳）: relbot:スマートビルディングにおける強化学習リスクを最小化するトランスファー学習手法
Authors: Mikhail Genkin and J.J. McArthru
Abstract要約: ReLBOTは、トランスファーラーニングと深いRLを併用して、既存の最適化されたスマートな建物から新しいコミッションされた建物へ知識を伝達する技術である。本研究は,強化学習者のウォームアップ期間における最大6.2回,最大132回の改善効果を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Smart buildings aim to optimize energy consumption by applying artificial intelligent algorithms. When a smart building is commissioned there is no historical data that could be used to train these algorithms. On-line Reinforcement Learning (RL) algorithms have shown significant promise, but their deployment carries a significant risk, because as the RL agent initially explores its action space it could cause significant discomfort to the building residents. In this paper we present ReLBOT, a new technique that uses transfer learning in conjunction with deep RL to transfer knowledge from an existing, optimized smart building, to the newly commissioning building, to reduce the adverse impact of the reinforcement learning agent's warm-up period. We demonstrate improvements of up to 6.2 times in the duration, and up to 132 times in prediction variance for the reinforcement learning agent's warm-up period.
Abstract（参考訳）: スマートな建物は、人工知能アルゴリズムを適用してエネルギー消費を最適化することを目指している。スマートビルが発注されると、これらのアルゴリズムのトレーニングに使用できる履歴データは存在しない。オンライン強化学習(RL)アルゴリズムは大きな可能性を秘めているが、その展開には大きなリスクが伴う。本稿では,学習者のウォームアップ期間の悪影響を軽減するために,既存の最適化されたスマートビルディングから新たなビルに知識を転送するために,deep rlと連携してトランスファー学習を利用する手法であるrelbotを提案する。本研究は,強化学習者のウォームアップ期間における最大6.2回,最大132回の改善効果を示す。

関連論文リスト

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning [25.642307880136332]
イミテーションラーニング(IL)と強化ラーニング(RL)はそれぞれ、ロボットポリシーラーニングに明確なアドバンテージを提供する。 IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習アプローチは有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズの不安定性とサンプル効率の低下に悩まされることが多い。本研究では,政策微調整のためのIN-RIL,INterleaved Reinforcement Learning and Imitation Learningを紹介する。
論文参考訳（メタデータ） (2025-05-15T16:01:21Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。 LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-16T14:15:28Z)
A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文参考訳（メタデータ） (2024-07-29T23:48:07Z)
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。 2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文参考訳（メタデータ） (2023-11-14T09:12:40Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Path Planning using Reinforcement Learning: A Policy Iteration Approach [0.0]
本研究は、強化学習パラメータに関連する設計空間の探索に光を当てることを目的としている。本稿では,これらのパラメータを探索するプロセスの高速化を目的とした,自動チューニングに基づく順序回帰手法を提案する。当社のアプローチでは,従来の最先端技術よりも平均1.48倍のスピードアップで1.82倍のピークスピードアップを実現している。
論文参考訳（メタデータ） (2023-03-13T23:44:40Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文参考訳（メタデータ） (2022-10-07T17:56:57Z)
Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2022-07-03T08:15:41Z)
Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文参考訳（メタデータ） (2021-10-18T00:50:34Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。