論文の概要: Progress Constraints for Reinforcement Learning in Behavior Trees
- arxiv url: http://arxiv.org/abs/2602.06525v2
- Date: Wed, 11 Feb 2026 12:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:19.934987
- Title: Progress Constraints for Reinforcement Learning in Behavior Trees
- Title(参考訳): 行動木における強化学習のための進歩的制約
- Authors: Finn Rietz, Mart Kartašev, Petter Ögren, Johannes A. Stork,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ほぼ最適のコントローラを学ぶことができるが、時として、疎い報酬、安全な探索、長期のクレジット割り当てに苦労することがある。
提案手法は,理論BT収束結果に基づく許容動作の制約を行う機構である進行制約を提案する。
2次元概念実証と高忠実度倉庫環境の実証評価により, 性能, 試料効率, 制約満足度が改善された。
- 参考スコア(独自算出の注目度): 4.532332159509032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior Trees (BTs) provide a structured and reactive framework for decision-making, commonly used to switch between sub-controllers based on environmental conditions. Reinforcement Learning (RL), on the other hand, can learn near-optimal controllers but sometimes struggles with sparse rewards, safe exploration, and long-horizon credit assignment. Combining BTs with RL has the potential for mutual benefit: a BT design encodes structured domain knowledge that can simplify RL training, while RL enables automatic learning of the controllers within BTs. However, naive integration of BTs and RL can lead to some controllers counteracting other controllers, possibly undoing previously achieved subgoals, thereby degrading the overall performance. To address this, we propose progress constraints, a novel mechanism where feasibility estimators constrain the allowed action set based on theoretical BT convergence results. Empirical evaluations in a 2D proof-of-concept and a high-fidelity warehouse environment demonstrate improved performance, sample efficiency, and constraint satisfaction, compared to prior methods of BT-RL integration.
- Abstract(参考訳): 行動木(BT)は、環境条件に基づいてサブコントローラを切り替えるのに一般的に使用される、意思決定のための構造化されリアクティブなフレームワークを提供する。
一方、強化学習(Reinforcement Learning, RL)は、ほぼ最適のコントローラを学ぶことができるが、時には報酬の希少化、安全な探索、長期信用の割り当てに苦労することがある。
BT設計は、構造化されたドメイン知識を符号化し、RLトレーニングを簡素化し、RLはBT内のコントローラの自動学習を可能にする。
しかし、BTとRLの素直な統合は、いくつかのコントローラが他のコントローラに対抗し、おそらく以前は達成されていたサブゴールを外し、全体的な性能を低下させる可能性がある。
そこで本研究では,理論BT収束結果に基づく許容動作セットを,実現可能性推定器が制約する機構である進行制約を提案する。
2次元概念実証と高忠実度倉庫環境における実証的な評価は,BT-RL統合の従来手法と比較して,性能,サンプル効率,制約満足度の向上を示した。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。
BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。
実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5~85%向上した。
論文 参考訳(メタデータ) (2025-05-08T08:50:32Z) - Gradient Boosting Reinforcement Learning [9.66275447955737]
Gradient Boosting Reinforcement Learning (GBRL) は、勾配強化木(GBT)の強みを強化学習(RL)タスクに適応させるフレームワークである。
GBRLは、構造化された観察と分類的特徴を持つ領域において、ニューラルネットワーク(NN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-11T07:52:33Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文 参考訳(メタデータ) (2021-09-14T08:42:29Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。