論文の概要: Human-Readable Programs as Actors of Reinforcement Learning Agents Using Critic-Moderated Evolution
- arxiv url: http://arxiv.org/abs/2410.21940v1
- Date: Tue, 29 Oct 2024 10:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:54.292977
- Title: Human-Readable Programs as Actors of Reinforcement Learning Agents Using Critic-Moderated Evolution
- Title(参考訳): 批判的進化を用いた強化学習エージェントのアクターとしての人間可読プログラム
- Authors: Senne Deproost, Denis Steckelmacher, Ann Nowé,
- Abstract要約: 我々はTD3上に構築し、その批判をプログラムを合成する遺伝的アルゴリズムの客観的機能の基礎として利用する。
私たちのアプローチでは、単純なMean Squared Errorではなく、プログラムを実際の高い報酬に導いています。
- 参考スコア(独自算出の注目度): 4.831084635928491
- License:
- Abstract: With Deep Reinforcement Learning (DRL) being increasingly considered for the control of real-world systems, the lack of transparency of the neural network at the core of RL becomes a concern. Programmatic Reinforcement Learning (PRL) is able to to create representations of this black-box in the form of source code, not only increasing the explainability of the controller but also allowing for user adaptations. However, these methods focus on distilling a black-box policy into a program and do so after learning using the Mean Squared Error between produced and wanted behaviour, discarding other elements of the RL algorithm. The distilled policy may therefore perform significantly worse than the black-box learned policy. In this paper, we propose to directly learn a program as the policy of an RL agent. We build on TD3 and use its critics as the basis of the objective function of a genetic algorithm that syntheses the program. Our approach builds the program during training, as opposed to after the fact. This steers the program to actual high rewards, instead of a simple Mean Squared Error. Also, our approach leverages the TD3 critics to achieve high sample-efficiency, as opposed to pure genetic methods that rely on Monte-Carlo evaluations. Our experiments demonstrate the validity, explainability and sample-efficiency of our approach in a simple gridworld environment.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は、現実世界のシステムの制御のためにますます検討されているため、RLのコアにおけるニューラルネットワークの透明性の欠如が懸念される。
プログラム強化学習(Programmatic Reinforcement Learning, PRL)は、このブラックボックスの表現をソースコード形式で生成することができる。
しかしながら、これらの手法はプログラムにブラックボックスのポリシーを蒸留することに集中し、生成と所望の動作の間に平均二乗誤差を用いて学習した後、RLアルゴリズムの他の要素を捨てる。
したがって、蒸留された政策は、ブラックボックスの学習ポリシーよりも著しく悪化する可能性がある。
本稿では,RLエージェントのポリシーとしてプログラムを直接学習することを提案する。
我々はTD3上に構築し、その批判をプログラムを合成する遺伝的アルゴリズムの客観的機能の基礎として利用する。
当社のアプローチは、実際の後とは対照的に、トレーニング中にプログラムを構築します。
これは単純なMean Squared Errorではなく、プログラムを実際に高い報酬に導いてくれる。
また,本手法では,モンテカルロ評価に依存する純粋な遺伝的手法とは対照的に,TD3評論家を高いサンプル効率に活用する。
本実験は, 簡単なグリッドワールド環境におけるアプローチの有効性, 説明可能性, サンプル効率を実証するものである。
関連論文リスト
- SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning [10.117626902557927]
現在の強化学習(RL)手法では、特定のタスクを学習するために大量のデータを必要とするため、エージェントをデプロイして実世界のアプリケーションにデータを収集する場合、不合理なコストが発生する。
本稿では,RL の報酬関数を補うために,CLF (Control Lyapunov Function) を導入して,サンプルの複雑さを低減した既存の作業から構築する。
提案手法は,最先端のソフト・アクター・クリティカル・アルゴリズムが必要とする実世界のデータの半分以下でクワッドコプターを着陸させることが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:51:17Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - On Reducing Undesirable Behavior in Deep Reinforcement Learning Models [0.0]
本稿では,DRLベースのソフトウェアにおいて望ましくない動作を大幅に削減することを目的とした,新しいフレームワークを提案する。
我々のフレームワークは、エンジニアにそのような望ましくない振る舞いの理解可能な特徴を提供するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-06T09:47:36Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。