論文の概要: Neuro-symbolic Action Masking for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.10598v1
- Date: Wed, 11 Feb 2026 07:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.544656
- Title: Neuro-symbolic Action Masking for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のためのニューロシンボリック・アクション・マスキング
- Authors: Shuai Han, Mehdi Dastani, Shihan Wang,
- Abstract要約: シンボリックモデルを自動的に学習する新しいフレームワークであるニューロシンボリック・アクション・マスキング(NSAM)を提案する。
NSAMは、実行不可能なアクションを除外するアクションマスクを学習する。
制約のある複数のドメイン上でNSAMを評価し,実験結果から,NSAMはDRL剤の試料効率を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 8.643258195793218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) may explore infeasible actions during training and execution. Existing approaches assume a symbol grounding function that maps high-dimensional states to consistent symbolic representations and a manually specified action masking techniques to constrain actions. In this paper, we propose Neuro-symbolic Action Masking (NSAM), a novel framework that automatically learn symbolic models, which are consistent with given domain constraints of high-dimensional states, in a minimally supervised manner during the DRL process. Based on the learned symbolic model of states, NSAM learns action masks that rules out infeasible actions. NSAM enables end-to-end integration of symbolic reasoning and deep policy optimization, where improvements in symbolic grounding and policy learning mutually reinforce each other. We evaluate NSAM on multiple domains with constraints, and experimental results demonstrate that NSAM significantly improves sample efficiency of DRL agent while substantially reducing constraint violations.
- Abstract(参考訳): 深層強化学習(DRL)は、訓練と実行中に実現不可能な行動を探索することができる。
既存のアプローチでは、高次元状態を一貫したシンボル表現にマッピングするシンボル接地関数と、手動で特定されたアクションマスキング技法を仮定して行動を制限する。
本稿では,高次元状態の与えられた領域制約に整合した記号モデルを自動的に学習する新しいフレームワークであるニューロシンボリック・アクション・マスキング(NSAM)を,DRLプロセス中に最小限に制御された方法で提案する。
学習された状態の象徴モデルに基づいて、NSAMは実行不可能なアクションを除外するアクションマスクを学ぶ。
NSAMはシンボリック推論とディープポリシー最適化のエンドツーエンド統合を可能にし、シンボリック基底とポリシー学習の改善が相互に強化される。
制約のある複数の領域においてNSAMを評価し,NSAMはDRL剤の試料効率を著しく向上し,制約違反を大幅に低減することを示した。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - "Yes, My LoRD." Guiding Language Model Extraction with Locality Reinforced Distillation [23.79690793366511]
大規模言語モデル(LLM)に特化して設計された新しいモデル抽出アルゴリズムであるLoRD(Locality Reinforced Distillation)を提案する。
LoRDは、被害者モデルの応答を信号として利用し、ローカルモデルの好みの作り方をガイドする、新たに定義されたポリシー段階的なトレーニングタスクを採用している。
論文 参考訳(メタデータ) (2024-09-04T13:54:38Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Sample-Efficient Reinforcement Learning with Symmetry-Guided Demonstrations for Robotic Manipulation [7.099237102357281]
強化学習(RL)は、特に高次元連続状態-作用空間において、サンプル効率の低下に悩まされる。
デモとRL生成の両方を格納するデュアルバッファアーキテクチャを用いた新しいトレーニングフレームワークであるDemo-EASEを紹介する。
その結果,Demo-EASEは標準のRLベースラインに比べてコンバージェンスを著しく加速し,最終性能を向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Learning Compact Representations of Neural Networks using DiscriminAtive
Masking (DAM) [2.1629276606305057]
ディープラーニングにおける中心的な目標は、ニューラルネットワークのすべての層における機能のコンパクトな表現を学習することである。
離散型マスキング(DAM: DiscriminAtive Masking)と呼ばれる新しい単一ステージ型プルーニング法を提案する。
提案したDAMアプローチは,様々なアプリケーションに対して極めて優れた性能を示している。
論文 参考訳(メタデータ) (2021-10-01T23:31:46Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Neurosymbolic Reinforcement Learning with Formally Verified Exploration [21.23874800091344]
本稿では,連続した状態と行動空間を確実に安全に探索するためのフレームワークであるRevelを紹介する。
確実に安全な深層RLの鍵となる課題は、学習ループ内のニューラルネットワークの繰り返し検証が計算不可能であることだ。
この課題は、近似勾配を持つ一般のニューロシンボリッククラスと、効率的な検証を可能にするシンボリックポリシーのより制限されたクラスという2つのポリシークラスを用いて解決する。
論文 参考訳(メタデータ) (2020-09-26T14:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。