論文の概要: Sample-efficient Neuro-symbolic Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.25534v1
- Date: Tue, 28 Apr 2026 12:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.84258
- Title: Sample-efficient Neuro-symbolic Proximal Policy Optimization
- Title(参考訳): サンプル効率のよいニューロシンボリック・プロキシポリシー最適化
- Authors: Simone Murari, Celeste Veronese, Daniele Meli,
- Abstract要約: 本稿では、より簡単な事例で学んだ部分論理的ポリシー仕様を伝達し、より困難な環境で学習をガイドする、PPO(Proximal Policy Optimization)の神経象徴的拡張を提案する。
提案手法を3つのベンチマークで評価した結果,PPOやReward Machineのベースラインよりも一貫して学習速度が向上し,収束率も向上した。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) algorithms often require a large amount of data and struggle in sparse-reward domains with long planning horizons and multiple sub-goals. In this paper, we propose a neuro-symbolic extension of Proximal Policy Optimization (PPO) that transfers partial logical policy specifications learned in easier instances to guide learning in more challenging settings. We introduce two integrations of symbolic guidance: (i) H-PPO-Product, which biases the action distribution at sampling time, and (ii) H-PPO-SymLoss, which augments the PPO loss with a symbolic regularization term. We evaluate our methods on three benchmarks (OfficeWorld, WaterWorld, and DoorKey), showing consistently faster learning and higher return at convergence than PPO and a Reward Machine baseline, also under imperfect symbolic knowledge.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)アルゴリズムは、しばしば大量のデータを必要とし、長い計画地平線と複数のサブゴールを持つスパース・リワード領域で苦労する。
本稿では、より簡単なインスタンスで学習した部分論理的ポリシー仕様を変換し、より困難な環境で学習をガイドする、PPO(Proximal Policy Optimization)のニューラルシンボリック拡張を提案する。
シンボリックガイダンスの2つの統合を紹介します。
一 サンプリング時の作用分布に偏りがあるH-PPO-生産物及び
(ii)記号正規化項でPPO損失を増大させるH-PPO-SymLoss。
提案手法を3つのベンチマーク(OfficeWorld,WaterWorld,DoorKey)で評価した結果,PPOやReward Machineのベースラインよりも一貫して学習速度が向上し,収束率も向上した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs [18.31183900162479]
我々は,特にマルチターン設定において,より安定かつ効果的に有利な推定方法を検討する。
まず,PPOを代替策として検討し,GRPOよりも堅牢であることを示す。
マルチターンシナリオにおけるPPOをさらに強化するために,ターンレベルMDPの定式化で動作するターンPPOを導入する。
論文 参考訳(メタデータ) (2025-12-18T19:07:25Z) - Learning Branching Policies for MILPs with Proximal Policy Optimization [0.0]
混合線形プログラム(MILP)における分岐境界法(B&B)
現在のアプローチはImitation Learning (IL)に依存しており、専門家によるデモンストレーションに過度に適合する傾向にあり、構造的に多様なインスタンスや目に見えないインスタンスに一般化するのに苦労している。
本研究では,RLアルゴリズムであるPPO(Proximal Policy Optimization)を用いて分岐ポリシーの学習を行う新しいフレームワークであるTree-Gate Proximal Policy Optimizationを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:16:14Z) - Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。
本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。
この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文 参考訳(メタデータ) (2025-05-27T20:38:44Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。