論文の概要: PAIL: Performance based Adversarial Imitation Learning Engine for Carbon Neutral Optimization
- arxiv url: http://arxiv.org/abs/2407.08910v1
- Date: Fri, 12 Jul 2024 01:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:16:30.422790
- Title: PAIL: Performance based Adversarial Imitation Learning Engine for Carbon Neutral Optimization
- Title(参考訳): PAIL:カーボンニュートラル最適化のための性能に基づく逆模倣学習エンジン
- Authors: Yuyang Ye, Lu-An Tang, Haoyu Wang, Runlong Yu, Wenchao Yu, Erhu He, Haifeng Chen, Hui Xiong,
- Abstract要約: 既存のDeep Reinforcement Learning (DRL) 手法では、それぞれのアクションが最終的な持続可能な開発目標に与える影響を評価するために、事前に定義された報酬関数が必要である。
本研究では,PAIL(Performance Based Adversarial Learning)エンジンを提案する。
これは、事前に定義されたアクション報酬を伴わずに、炭素中立性のための最適な操作ポリシーを取得するための新しい方法である。
- 参考スコア(独自算出の注目度): 42.9492993819955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving carbon neutrality within industrial operations has become increasingly imperative for sustainable development. It is both a significant challenge and a key opportunity for operational optimization in industry 4.0. In recent years, Deep Reinforcement Learning (DRL) based methods offer promising enhancements for sequential optimization processes and can be used for reducing carbon emissions. However, existing DRL methods need a pre-defined reward function to assess the impact of each action on the final sustainable development goals (SDG). In many real applications, such a reward function cannot be given in advance. To address the problem, this study proposes a Performance based Adversarial Imitation Learning (PAIL) engine. It is a novel method to acquire optimal operational policies for carbon neutrality without any pre-defined action rewards. Specifically, PAIL employs a Transformer-based policy generator to encode historical information and predict following actions within a multi-dimensional space. The entire action sequence will be iteratively updated by an environmental simulator. Then PAIL uses a discriminator to minimize the discrepancy between generated sequences and real-world samples of high SDG. In parallel, a Q-learning framework based performance estimator is designed to estimate the impact of each action on SDG. Based on these estimations, PAIL refines generated policies with the rewards from both discriminator and performance estimator. PAIL is evaluated on multiple real-world application cases and datasets. The experiment results demonstrate the effectiveness of PAIL comparing to other state-of-the-art baselines. In addition, PAIL offers meaningful interpretability for the optimization in carbon neutrality.
- Abstract(参考訳): 工業運転における炭素中立化は、持続可能な開発にますます不可欠になっている。
これは重要な課題であり、業界4.0における運用最適化の重要な機会でもある。
近年、深層強化学習(DRL)に基づく手法は、逐次最適化プロセスの有望な拡張を提供し、二酸化炭素排出量の削減に利用できる。
しかし、既存のDRL法では、各アクションが最終的な持続可能な開発目標(SDG)に与える影響を評価するために、事前に定義された報酬関数が必要である。
多くの実応用において、そのような報酬関数は事前に与えられない。
そこで本研究では,PAIL(Performance Based Adversarial Imitation Learning)エンジンを提案する。
これは、事前に定義されたアクション報酬を伴わずに、炭素中立性のための最適な操作ポリシーを取得するための新しい方法である。
具体的には、Transformerベースのポリシージェネレータを使用して、履歴情報をエンコードし、多次元空間内の後続のアクションを予測する。
アクションシーケンス全体を環境シミュレータによって反復的に更新する。
次に、PAILは判別器を用いて、生成されたシーケンスと高SDGの実世界のサンプルとの差を最小限にする。
並行して、Qラーニングフレームワークに基づくパフォーマンス推定器は、各アクションがSDGに与える影響を推定するために設計されている。
これらの推定に基づいて、PAILは識別器と性能推定器の両方の報酬で生成されたポリシーを洗練する。
PAILは、複数の実世界のアプリケーションケースとデータセットで評価される。
実験結果は,他の最先端ベースラインと比較したPAILの有効性を示した。
さらに、PAILは炭素中立性の最適化に有意義な解釈性を提供する。
関連論文リスト
- Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Toward Efficient Automated Feature Engineering [27.47868891738917]
自動特徴工学(AFE)は、下流タスクのための最適な特徴集合を自動生成し、選択することを指す。
現在のAFE手法は、主に生成された機能の有効性の改善に重点を置いているが、大規模展開における低効率の問題を無視している。
強化学習設定に基づいてAFEパイプラインを構築し,各特徴をエージェントに割り当てて特徴変換を行う。
分類タスクと回帰タスクの両方の観点から,36のデータセットに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-26T13:18:51Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。