Fugu-MT 論文翻訳(概要): Discovering Continuous-Time Memory-Based Symbolic Policies using Genetic Programming

論文の概要: Discovering Continuous-Time Memory-Based Symbolic Policies using Genetic Programming

arxiv url: http://arxiv.org/abs/2406.02765v5
Date: Thu, 19 Dec 2024 13:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.698427
Title: Discovering Continuous-Time Memory-Based Symbolic Policies using Genetic Programming
Title（参考訳）: 遺伝的プログラミングを用いた連続記憶に基づくシンボリックポリシーの発見
Authors: Sigur de Vries, Sander Keemink, Marcel van Gerven,
Abstract要約: 遺伝的プログラミングは最適化に使われ、象徴的な表現からなる解釈可能なポリシーをもたらす。この結果から,記憶の象徴的ポリシーは,様々な制御タスクにおけるブラックボックスポリシーと比較できることがわかった。
参考スコア（独自算出の注目度）: 1.2597747768235847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial intelligence techniques are increasingly being applied to solve control problems, but often rely on black-box methods without transparent output generation. To improve the interpretability and transparency in control systems, models can be defined as white-box symbolic policies described by mathematical expressions. For better performance in partially observable and volatile environments, the symbolic policies are extended with memory represented by continuous-time latent variables, governed by differential equations. Genetic programming is used for optimisation, resulting in interpretable policies consisting of symbolic expressions. Our results show that symbolic policies with memory compare with black-box policies on a variety of control tasks. Furthermore, the benefit of the memory in symbolic policies is demonstrated on experiments where memory-less policies fall short. Overall, we present a method for evolving high-performing symbolic policies that offer interpretability and transparency, which lacks in black-box models.
Abstract（参考訳）: 人工知能技術は制御問題の解決にますます応用されているが、しばしば透明な出力生成のないブラックボックス方式に依存している。制御系における解釈可能性と透明性を改善するために、モデルは数学的表現によって記述されたホワイトボックスのシンボルポリシーとして定義することができる。部分的に観測可能で揮発的な環境での性能向上のために、シンボルポリシーは、微分方程式によって支配される連続時間潜在変数で表されるメモリで拡張される。遺伝的プログラミングは最適化に使われ、象徴的な表現からなる解釈可能なポリシーをもたらす。この結果から,記憶の象徴的ポリシーは,様々な制御タスクにおけるブラックボックスポリシーと比較できることがわかった。さらに、メモリレスポリシーが不足する実験において、シンボリックポリシーにおけるメモリの利点が示される。全体として,ブラックボックスモデルに欠けている解釈可能性と透明性を提供する,高性能なシンボルポリシーを進化させる手法を提案する。

関連論文リスト

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。 Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文参考訳（メタデータ） (2026-03-01T18:59:59Z)
Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models [49.65762241649762]
本稿では,K連続トークン列を統一的な意味行動として扱うフレームワークを提案する。数学的推論と符号化ベンチマークの実験により、MPOは標準的なトークンレベルのポリシー勾配ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-16T01:28:38Z)
Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文参考訳（メタデータ） (2026-01-29T21:52:06Z)
Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
BASIL: Best-Action Symbolic Interpretable Learning for Evolving Compact RL Policies [0.0]
BASIL(Best-Action Symbolic Interpretable Learning)は、シンボリックなルールベースのポリシーを生成するための体系的なアプローチである。本稿では,象徴的表現性,進化的多様性,オンライン学習を組み合わせた新しい解釈可能なポリシー合成手法を提案する。
論文参考訳（メタデータ） (2025-05-31T00:47:24Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文参考訳（メタデータ） (2024-03-21T11:54:45Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
Efficient Symbolic Policy Learning with Differentiable Symbolic Expression [30.855457609733637]
本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
論文参考訳（メタデータ） (2023-11-02T03:27:51Z)
Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文参考訳（メタデータ） (2023-10-04T09:21:01Z)
Policy Gradient Methods in the Presence of Symmetries and State Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文参考訳（メタデータ） (2023-05-09T17:59:10Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Symbolic Visual Reinforcement Learning: A Scalable Framework with Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文参考訳（メタデータ） (2022-12-30T17:50:54Z)
Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-15T15:26:49Z)
Learning to Actively Reduce Memory Requirements for Robot Control Tasks [4.302265156822829]
ロボットを制御するための最先端のアプローチは、しばしばタスクに過剰にリッチなメモリ表現を使用するか、手作りのトリックをメモリ効率に頼っている。この研究は、メモリ表現とポリシーを共同で合成するための一般的なアプローチを提供する。
論文参考訳（メタデータ） (2020-08-17T16:20:13Z)
Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文参考訳（メタデータ） (2020-02-26T23:00:27Z)
Learning Task-Driven Control Policies via Information Bottlenecks [7.271970309320002]
本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
論文参考訳（メタデータ） (2020-02-04T17:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。