論文の概要: BASIL: Best-Action Symbolic Interpretable Learning for Evolving Compact RL Policies
- arxiv url: http://arxiv.org/abs/2506.00328v2
- Date: Mon, 09 Jun 2025 21:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.152558
- Title: BASIL: Best-Action Symbolic Interpretable Learning for Evolving Compact RL Policies
- Title(参考訳): BASIL:コンパクトなRLポリシーの進化のためのベストアクションシンボリック解釈学習
- Authors: Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar,
- Abstract要約: BASIL(Best-Action Symbolic Interpretable Learning)は、シンボリックなルールベースのポリシーを生成するための体系的なアプローチである。
本稿では,象徴的表現性,進化的多様性,オンライン学習を組み合わせた新しい解釈可能なポリシー合成手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quest for interpretable reinforcement learning is a grand challenge for the deployment of autonomous decision-making systems in safety-critical applications. Modern deep reinforcement learning approaches, while powerful, tend to produce opaque policies that compromise verification, reduce transparency, and impede human oversight. To address this, we introduce BASIL (Best-Action Symbolic Interpretable Learning), a systematic approach for generating symbolic, rule-based policies via online evolutionary search with quality-diversity (QD) optimization. BASIL represents policies as ordered lists of symbolic predicates over state variables, ensuring full interpretability and tractable policy complexity. By using a QD archive, the methodology in the proposed study encourages behavioral and structural diversity between top-performing solutions, while a complexity-aware fitness encourages the synthesis of compact representations. The evolutionary system supports the use of exact constraints for rule count and system adaptability for balancing transparency with expressiveness. Empirical comparisons with three benchmark tasks CartPole-v1, MountainCar-v0, and Acrobot-v1 show that BASIL consistently synthesizes interpretable controllers with compact representations comparable to deep reinforcement learning baselines. Herein, this article introduces a new interpretable policy synthesis method that combines symbolic expressiveness, evolutionary diversity, and online learning through a unifying framework.
- Abstract(参考訳): 予測可能な強化学習の探求は、安全クリティカルなアプリケーションに自律的な意思決定システムを展開する上で大きな課題である。
現代の深層強化学習アプローチは、強力ではあるが、検証を妥協し、透明性を低減し、人間の監視を妨げる不透明なポリシーを生み出す傾向がある。
そこで本研究では,BASIL (Best-Action Symbolic Interpretable Learning) を導入し,QD(Quality-diversity) 最適化によるオンライン進化探索を通じて,シンボル的,ルールベースのポリシーを生成する体系的アプローチを提案する。
BASILは、状態変数に対するシンボル述語を順序付けしたリストとしてポリシーを表現し、完全な解釈可能性と抽出可能なポリシー複雑性を保証する。
提案手法は,QDアーカイブを用いることで,トップパフォーマンスソリューション間の行動的・構造的多様性を促進する一方で,複雑性に配慮した適合性はコンパクトな表現の合成を促進する。
進化的システムは、規則数に対する厳密な制約と、透明性と表現力のバランスをとるためのシステム適応性の使用をサポートする。
CartPole-v1、MountainCar-v0、Acrobot-v1の3つのベンチマークタスクと比較すると、BASILは深い強化学習ベースラインに匹敵するコンパクトな表現を持つ解釈可能なコントローラを一貫して合成している。
本稿では,象徴的表現性,進化的多様性,および統一フレームワークによるオンライン学習を組み合わせた,新たな解釈可能なポリシー合成手法を提案する。
関連論文リスト
- From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。
提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文 参考訳(メタデータ) (2025-01-16T22:11:03Z) - Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization [9.035959289139102]
本稿では,SYMbolic tree-based on-policy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T14:04:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep
Reinforcement Learning [1.8220718426493654]
本稿では,ベイズ連鎖に基づく新規な非巡回戦略グラフ分解手法を提案する。
我々は、このアプローチを最先端DRL法、ソフトアクター・クリティック(SAC)に統合する。
ベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築し, 共同政策としていくつかのサブ政治を組織化することによって, 対応するベイズ・ソフト・アクター・クリティック(BSAC)モデルを構築する。
論文 参考訳(メタデータ) (2022-08-11T20:36:23Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。