論文の概要: Discovering Continuous-Time Memory-Based Symbolic Policies using Genetic Programming
- arxiv url: http://arxiv.org/abs/2406.02765v5
- Date: Thu, 19 Dec 2024 13:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:50.248364
- Title: Discovering Continuous-Time Memory-Based Symbolic Policies using Genetic Programming
- Title(参考訳): 遺伝的プログラミングを用いた連続記憶に基づくシンボリックポリシーの発見
- Authors: Sigur de Vries, Sander Keemink, Marcel van Gerven,
- Abstract要約: 遺伝的プログラミングは最適化に使われ、象徴的な表現からなる解釈可能なポリシーをもたらす。
この結果から,記憶の象徴的ポリシーは,様々な制御タスクにおけるブラックボックスポリシーと比較できることがわかった。
- 参考スコア(独自算出の注目度): 1.2597747768235847
- License:
- Abstract: Artificial intelligence techniques are increasingly being applied to solve control problems, but often rely on black-box methods without transparent output generation. To improve the interpretability and transparency in control systems, models can be defined as white-box symbolic policies described by mathematical expressions. For better performance in partially observable and volatile environments, the symbolic policies are extended with memory represented by continuous-time latent variables, governed by differential equations. Genetic programming is used for optimisation, resulting in interpretable policies consisting of symbolic expressions. Our results show that symbolic policies with memory compare with black-box policies on a variety of control tasks. Furthermore, the benefit of the memory in symbolic policies is demonstrated on experiments where memory-less policies fall short. Overall, we present a method for evolving high-performing symbolic policies that offer interpretability and transparency, which lacks in black-box models.
- Abstract(参考訳): 人工知能技術は制御問題の解決にますます応用されているが、しばしば透明な出力生成のないブラックボックス方式に依存している。
制御系における解釈可能性と透明性を改善するために、モデルは数学的表現によって記述されたホワイトボックスのシンボルポリシーとして定義することができる。
部分的に観測可能で揮発的な環境での性能向上のために、シンボルポリシーは、微分方程式によって支配される連続時間潜在変数で表されるメモリで拡張される。
遺伝的プログラミングは最適化に使われ、象徴的な表現からなる解釈可能なポリシーをもたらす。
この結果から,記憶の象徴的ポリシーは,様々な制御タスクにおけるブラックボックスポリシーと比較できることがわかった。
さらに、メモリレスポリシーが不足する実験において、シンボリックポリシーにおけるメモリの利点が示される。
全体として,ブラックボックスモデルに欠けている解釈可能性と透明性を提供する,高性能なシンボルポリシーを進化させる手法を提案する。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression [30.855457609733637]
本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。
また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
論文 参考訳(メタデータ) (2023-11-02T03:27:51Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Learning to Actively Reduce Memory Requirements for Robot Control Tasks [4.302265156822829]
ロボットを制御するための最先端のアプローチは、しばしばタスクに過剰にリッチなメモリ表現を使用するか、手作りのトリックをメモリ効率に頼っている。
この研究は、メモリ表現とポリシーを共同で合成するための一般的なアプローチを提供する。
論文 参考訳(メタデータ) (2020-08-17T16:20:13Z) - Learning Task-Driven Control Policies via Information Bottlenecks [7.271970309320002]
本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。
標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。
対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
論文 参考訳(メタデータ) (2020-02-04T17:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。