論文の概要: Discovering Dynamic Symbolic Policies with Genetic Programming
- arxiv url: http://arxiv.org/abs/2406.02765v1
- Date: Tue, 4 Jun 2024 20:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:47:37.805456
- Title: Discovering Dynamic Symbolic Policies with Genetic Programming
- Title(参考訳): 遺伝的プログラミングによる動的シンボリック・ポリシーの発見
- Authors: Sigur de Vries, Sander Keemink, Marcel van Gerven,
- Abstract要約: 遺伝的プログラミングが象徴的な制御系を発見するのに有効であることを示す。
これは、観測を制御信号に変換する関数の記号表現を学ぶことで達成される。
メモリのない静的制御ポリシーを実装するシステムと動的メモリベースの制御ポリシーを実装するシステムの両方を考慮する。
- 参考スコア(独自算出の注目度): 1.2597747768235847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) techniques are increasingly being applied to solve control problems. However, control systems developed in AI are often black-box methods, in that it is not clear how and why they generate their outputs. A lack of transparency can be problematic for control tasks in particular, because it complicates the identification of biases or errors, which in turn negatively influences the user's confidence in the system. To improve the interpretability and transparency in control systems, the black-box structure can be replaced with white-box symbolic policies described by mathematical expressions. Genetic programming offers a gradient-free method to optimise the structure of non-differentiable mathematical expressions. In this paper, we show that genetic programming can be used to discover symbolic control systems. This is achieved by learning a symbolic representation of a function that transforms observations into control signals. We consider both systems that implement static control policies without memory and systems that implement dynamic memory-based control policies. In case of the latter, the discovered function becomes the state equation of a differential equation, which allows for evidence integration. Our results show that symbolic policies are discovered that perform comparably with black-box policies on a variety of control tasks. Furthermore, the additional value of the memory capacity in the dynamic policies is demonstrated on experiments where static policies fall short. Overall, we demonstrate that white-box symbolic policies can be optimised with genetic programming, while offering interpretability and transparency that lacks in black-box models.
- Abstract(参考訳): 人工知能(AI)技術は、制御問題の解決にますます応用されている。
しかし、AIで開発された制御システムは、しばしばブラックボックス方式であり、どのようにして、なぜ出力を生成するのかは明らかになっていない。
透明性の欠如は、特に制御タスクにおいて、バイアスやエラーの識別が複雑になるため、システムに対するユーザの信頼に悪影響を及ぼすため、問題となることがある。
制御系における解釈可能性と透明性を向上させるため、ブラックボックス構造を数学的表現によって記述されたホワイトボックスのシンボルポリシーに置き換えることができる。
遺伝的プログラミングは、微分不可能な数学的表現の構造を最適化するための勾配のない方法を提供する。
本稿では,遺伝的プログラミングがシンボル制御システム発見に有効であることを示す。
これは、観測を制御信号に変換する関数の記号表現を学ぶことで達成される。
メモリのない静的制御ポリシーを実装するシステムと動的メモリベースの制御ポリシーを実装するシステムの両方を考慮する。
後者の場合、発見関数は微分方程式の状態方程式となり、証拠積分が可能である。
この結果から,様々な制御タスクにおいて,ブラックボックスポリシと互換性のあるシンボリックポリシが発見された。
さらに、静的ポリシーが不足する実験では、動的ポリシーにおけるメモリ容量の付加価値が示される。
全体として、ブラックボックスモデルに欠けている解釈性と透明性を提供しながら、ホワイトボックスのシンボルポリシーを遺伝的プログラミングで最適化できることを示します。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression [30.855457609733637]
本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。
また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
論文 参考訳(メタデータ) (2023-11-02T03:27:51Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Learning Task-Driven Control Policies via Information Bottlenecks [7.271970309320002]
本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。
標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。
対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
論文 参考訳(メタデータ) (2020-02-04T17:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。