論文の概要: DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization
- arxiv url: http://arxiv.org/abs/2605.18508v1
- Date: Mon, 18 May 2026 15:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.890244
- Title: DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization
- Title(参考訳): DiPRL: アーキテクチャエントロピー規則化による離散型プログラムポリシーの学習
- Authors: Chengpeng Hu, Yingqian Zhang, Hendrik Baier,
- Abstract要約: プログラム強化学習(PRL)は、深い強化学習に代わる解釈可能な代替手段を提供する。
プログラムの継続的緩和を最適化する勾配法が開発されている。
ポストホック離散化は、プログラムの最適化された分岐とパラメータを捨てることができ、結果としてポリシーの表現力は崩壊する。
本稿では,これらの制約を克服するために,離散型プログラム強化学習(DiPRL)を提案する。
- 参考スコア(独自算出の注目度): 3.903101278501413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programmatic reinforcement learning (PRL) offers an interpretable alternative to deep reinforcement learning by representing policies as human-readable and -editable programs. While gradient-based methods have been developed to optimize continuous relaxations of programs, they face a significant performance drop when converting the continuous relaxations back into discrete programs. Post-hoc discretization can discard optimized branches and parameters in a program, which results in a collapse of policy expressivity and lowered task performance, leading in turn to a need for additional fine-tuning. To overcome these limitations, we propose Differentiable Discrete Programmatic Reinforcement Learning (DiPRL), a method that learns programmatic policies that become nearly discrete during training, avoiding a separate post-hoc fine-tuning stage. We first analyze the inherent risks of performance drop introduced by post-hoc discretization of gradient-based methods. Then, we introduce programmatic architecture entropy regularization, which enables smooth, differentiable training that encourages convergence toward a discrete program. DiPRL maintains the efficiency of gradient-based optimization while mitigating the risks of post-hoc discretization. Our experiments across multiple discrete and continuous RL tasks demonstrate that DiPRL can achieve strong performance via interpretable programmatic policies.
- Abstract(参考訳): プログラム強化学習(PRL)は、政策を人力で読みやすいプログラムとして表現することで、深い強化学習に代わる解釈可能な代替手段を提供する。
勾配に基づく手法はプログラムの連続緩和を最適化するために開発されているが、連続緩和を離散プログラムに変換する際には大きな性能低下に直面している。
ポストホックの離散化は、プログラムの最適化された分岐とパラメータを捨てることができ、それによってポリシー表現性の崩壊とタスクパフォーマンスの低下が起こり、さらに微調整が必要になる。
これらの制約を克服するために,訓練中にほぼ離散化するプログラムポリシーを学習し,個別のポストホックな微調整段階を避けるための,微分可能離散型プログラム強化学習(DiPRL)を提案する。
まず,勾配に基づく手法のポストホック離散化によって生じる性能低下の固有のリスクを解析する。
次に,プログラム型アーキテクチャのエントロピー正規化を導入し,離散プログラムへの収束を促すスムーズで微分可能なトレーニングを実現する。
DiPRLは、ポストホック離散化のリスクを軽減しつつ、勾配に基づく最適化の効率を維持する。
複数の離散的かつ連続的なRLタスクにまたがる実験により、DPRLは解釈可能なプログラムポリシーによって高い性能を達成できることを示す。
関連論文リスト
- Actor-Critic with Active Importance Sampling [61.41272490044518]
本稿では,Active-Importance-Sampling Actor-Critic (AISAC)アルゴリズムを提案する。
AISACはActor-Criticフレームワークの拡張であり、ポリシー勾配推定のばらつきを低減する。
実験では、標準的なアクター・クライブ法と比較して学習速度、サンプル効率、トレーニングが改善された。
論文 参考訳(メタデータ) (2026-05-08T01:21:32Z) - Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages [7.728607011076579]
強化学習は、自己回帰言語モデル(AR)の訓練後において有効であるが、これらの手法を拡散言語モデル(DLM)に拡張することは、難易度が高いため困難である。
拡散に基づくシーケンス生成を有限水平マルコフ決定過程としてデノベーション軌道上で定式化し、正確な偏りのない政策勾配を導出する。
コーディングと論理的推論ベンチマークの実験は、数学的推論に強い競争性能を持つ最先端の結果を示している。
論文 参考訳(メタデータ) (2026-03-13T01:38:44Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Optimistic Planning by Regularized Dynamic Programming [12.411844611718958]
無限水平割引マルコフ決定過程における楽観的計画法を提案する。
この手法により、縮退や単調な議論を避けることができる。
ほぼ最適統計保証が得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T17:48:08Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。