論文の概要: Discovering Dynamic Symbolic Policies with Genetic Programming
- arxiv url: http://arxiv.org/abs/2406.02765v3
- Date: Wed, 24 Jul 2024 11:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:41:39.475403
- Title: Discovering Dynamic Symbolic Policies with Genetic Programming
- Title(参考訳): 遺伝的プログラミングによる動的シンボリック・ポリシーの発見
- Authors: Sigur de Vries, Sander Keemink, Marcel van Gerven,
- Abstract要約: 本稿では,解釈可能性と透明性を提供する高パフォーマンスな象徴的政策を進化させる手法を提案する。
遺伝的プログラミングに最適化されたメモリを用いた動的シンボルポリシーについて考察する。
この結果から, 動的シンボルポリシは, 様々な制御タスクにおけるブラックボックスポリシと比較できることがわかった。
- 参考スコア(独自算出の注目度): 1.2597747768235847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence techniques are increasingly being applied to solve control problems, but often rely on black-box methods without transparent output generation. To improve the interpretability and transparency in control systems, models can be defined as white-box symbolic policies described by mathematical expressions. While current approaches to learn symbolic policies focus on static policies that directly map observations to control signals, these may fail in partially observable and volatile environments. We instead consider dynamic symbolic policies with memory, optimised with genetic programming. The resulting policies are robust, and consist of easy to interpret coupled differential equations. Our results show that dynamic symbolic policies compare with black-box policies on a variety of control tasks. Furthermore, the benefit of the memory in dynamic policies is demonstrated on experiments where static policies fall short. Overall, we present a method for evolving high-performing symbolic policies that offer interpretability and transparency, which lacks in black-box models.
- Abstract(参考訳): 人工知能技術は制御問題の解決にますます応用されているが、しばしば透明な出力生成のないブラックボックス方式に依存している。
制御系における解釈可能性と透明性を改善するために、モデルは数学的表現によって記述されたホワイトボックスのシンボルポリシーとして定義することができる。
シンボリックポリシーを学ぶための現在のアプローチは、観測を直接制御信号にマッピングする静的ポリシーに焦点を当てているが、これらは部分的に観測可能で不安定な環境で失敗する可能性がある。
代わりに、遺伝的プログラミングで最適化されたメモリによる動的な象徴的ポリシーを考える。
結果として得られるポリシーは堅牢であり、結合された微分方程式を容易に解釈できる。
この結果から, 動的シンボルポリシは, 様々な制御タスクにおけるブラックボックスポリシと比較できることがわかった。
さらに、静的ポリシーが不足している実験では、動的ポリシーにおけるメモリの利点が示される。
全体として,ブラックボックスモデルに欠けている解釈可能性と透明性を提供する,高性能なシンボルポリシーを進化させる手法を提案する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression [30.855457609733637]
本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。
また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
論文 参考訳(メタデータ) (2023-11-02T03:27:51Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Learning Task-Driven Control Policies via Information Bottlenecks [7.271970309320002]
本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。
標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。
対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
論文 参考訳(メタデータ) (2020-02-04T17:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。