論文の概要: Sample-Efficient Neurosymbolic Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.02850v1
- Date: Tue, 06 Jan 2026 09:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.870872
- Title: Sample-Efficient Neurosymbolic Deep Reinforcement Learning
- Title(参考訳): 標本高能率ニューロシンボリックディープ強化学習
- Authors: Celeste Veronese, Daniele Meli, Alessandro Farinelli,
- Abstract要約: 本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 49.60927398960061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is a well-established framework for sequential decision-making in complex environments. However, state-of-the-art Deep RL (DRL) algorithms typically require large training datasets and often struggle to generalize beyond small-scale training scenarios, even within standard benchmarks. We propose a neuro-symbolic DRL approach that integrates background symbolic knowledge to improve sample efficiency and generalization to more challenging, unseen tasks. Partial policies defined for simple domain instances, where high performance is easily attained, are transferred as useful priors to accelerate learning in more complex settings and avoid tuning DRL parameters from scratch. To do so, partial policies are represented as logical rules, and online reasoning is performed to guide the training process through two mechanisms: (i) biasing the action distribution during exploration, and (ii) rescaling Q-values during exploitation. This neuro-symbolic integration enhances interpretability and trustworthiness while accelerating convergence, particularly in sparse-reward environments and tasks with long planning horizons. We empirically validate our methodology on challenging variants of gridworld environments, both in the fully observable and partially observable setting. We show improved performance over a state-of-the-art reward machine baseline.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な環境でのシーケンシャルな意思決定のためのフレームワークである。
しかし、最先端のDeep RL(DRL)アルゴリズムは通常、大規模なトレーニングデータセットを必要とし、標準ベンチマークでさえ、小規模のトレーニングシナリオを超えて一般化するのに苦労することが多い。
本稿では,背景のシンボル知識を統合して,サンプル効率の向上と一般化を,より困難で目立たないタスクに展開する,ニューロシンボリックDRLアプローチを提案する。
パフォーマンスが容易に達成できる単純なドメインインスタンスのために定義された部分ポリシーは、より複雑な設定で学習を加速し、DRLパラメータをスクラッチからチューニングするのを避けるために有用な事前処理として転送される。
そのため、部分的ポリシーは論理的ルールとして表現され、オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
一 探査中の行動分布の偏り
(ii)搾取中にQ値を再スケーリングする。
このニューロシンボリック統合は、特にスパース・リワード環境や長い計画地平線を持つタスクにおいて、収束を加速しながら、解釈可能性と信頼性を高める。
我々は、完全に観測可能であり、部分的に観測可能な設定の両方において、グリッドワールド環境の挑戦的な変種に関する方法論を実証的に検証する。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
関連論文リスト
- Scaling Reinforcement Learning for Content Moderation with Large Language Models [16.516137166093696]
本稿では,コンテンツ分類におけるスケーリング強化学習の総合的研究について述べる。
RLは複雑なポリシーに基づく推論を必要とするタスクの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-12-23T05:27:16Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。