論文の概要: Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization
- arxiv url: http://arxiv.org/abs/2408.08761v4
- Date: Wed, 05 Feb 2025 07:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 11:04:32.925901
- Title: Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization
- Title(参考訳): 直接最適化による木に基づく強化学習における情報損失の軽減
- Authors: Sascha Marton, Tim Grams, Florian Vogt, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt,
- Abstract要約: 本稿では,SYMbolic tree-based on-policy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.035959289139102
- License:
- Abstract: Reinforcement learning (RL) has seen significant success across various domains, but its adoption is often limited by the black-box nature of neural network policies, making them difficult to interpret. In contrast, symbolic policies allow representing decision-making strategies in a compact and interpretable way. However, learning symbolic policies directly within on-policy methods remains challenging. In this paper, we introduce SYMPOL, a novel method for SYMbolic tree-based on-POLicy RL. SYMPOL employs a tree-based model integrated with a policy gradient method, enabling the agent to learn and adapt its actions while maintaining a high level of interpretability. We evaluate SYMPOL on a set of benchmark RL tasks, demonstrating its superiority over alternative tree-based RL approaches in terms of performance and interpretability. Unlike existing methods, it enables gradient-based, end-to-end learning of interpretable, axis-aligned decision trees within standard on-policy RL algorithms. Therefore, SYMPOL can become the foundation for a new class of interpretable RL based on decision trees. Our implementation is available under: https://github.com/s-marton/sympol
- Abstract(参考訳): 強化学習(RL)は、様々な領域で大きな成功を収めてきたが、ニューラルネットワークポリシーのブラックボックスの性質によって採用が制限されることが多く、解釈が困難である。
対照的に、象徴的な政策は、コンパクトで解釈可能な方法で意思決定戦略を表現することができる。
しかし、政治上の方法から直接象徴的な政策を学ぶことは依然として困難である。
本稿では,SYMbolic tree-based on-POLicy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントは高いレベルの解釈可能性を維持しながら、その動作を学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、その性能と解釈可能性の観点から、代替木ベースのRLアプローチよりも優れていることを示す。
既存の方法とは異なり、標準のオンラインRLアルゴリズムで解釈可能な軸整合決定木を勾配に基づくエンドツーエンドの学習を可能にする。
したがって、SYMPOLは決定木に基づく新しい解釈可能なRLの基盤となることができる。
私たちの実装は、https://github.com/s-marton/sympol.comで利用可能です。
関連論文リスト
- In Search of Trees: Decision-Tree Policy Synthesis for Black-Box Systems via Search [6.74890780471356]
ブラックボックス環境と仕様が与えられた最適決定木ポリシーを合成する手法を提案する。
我々のアプローチは、与えられた離散化の下で決定木の空間を体系的に探索する特殊探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-09-05T05:51:42Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Efficient Symbolic Policy Learning with Differentiable Symbolic
Expression [30.855457609733637]
本稿では, ゼロから端から端まで, シンボリックポリシーを学習する学習手法を提案する。
また,シングルタスクRLでのみ動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボリックポリシを生成する。
論文 参考訳(メタデータ) (2023-11-02T03:27:51Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic
Approach [18.38878415765146]
本稿では,ニューラル世界とシンボリック世界の両方の長所を生かした,説明可能な強化学習(DERRL)を提案する。
DERRLは、シンボリックプランニングからのリレーショナル表現と制約を深層学習と組み合わせて解釈可能なポリシーを抽出する。
これらのポリシーは、それぞれの決定(あるいは行動)がどのように到着するかを説明する論理的なルールの形式です。
論文 参考訳(メタデータ) (2023-04-17T15:11:40Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。