論文の概要: XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search
- arxiv url: http://arxiv.org/abs/2504.20969v1
- Date: Tue, 29 Apr 2025 17:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.02072
- Title: XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search
- Title(参考訳): XPG-RL:効率的な機械的探索のための説明可能な優先度誘導による強化学習
- Authors: Yiting Zhang, Shichen Li, Elena Shrestha,
- Abstract要約: エージェントが機械的な探索タスクを効率的に実行できる強化学習フレームワークXPG-RLを紹介する。
XPG-RLはタスク駆動型アクション優先順位付け機構と学習コンテキスト対応スイッチング戦略を統合する。
XPG-RLはタスク成功率と動作効率において、ベースライン法を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanical search (MS) in cluttered environments remains a significant challenge for autonomous manipulators, requiring long-horizon planning and robust state estimation under occlusions and partial observability. In this work, we introduce XPG-RL, a reinforcement learning framework that enables agents to efficiently perform MS tasks through explainable, priority-guided decision-making based on raw sensory inputs. XPG-RL integrates a task-driven action prioritization mechanism with a learned context-aware switching strategy that dynamically selects from a discrete set of action primitives such as target grasping, occlusion removal, and viewpoint adjustment. Within this strategy, a policy is optimized to output adaptive threshold values that govern the discrete selection among action primitives. The perception module fuses RGB-D inputs with semantic and geometric features to produce a structured scene representation for downstream decision-making. Extensive experiments in both simulation and real-world settings demonstrate that XPG-RL consistently outperforms baseline methods in task success rates and motion efficiency, achieving up to 4.5$\times$ higher efficiency in long-horizon tasks. These results underscore the benefits of integrating domain knowledge with learnable decision-making policies for robust and efficient robotic manipulation.
- Abstract(参考訳): 乱雑な環境下での機械的探索(MS)は、自律マニピュレータにとって重要な課題であり、長い水平計画と、閉塞と部分観測可能性の下での堅牢な状態推定が必要である。
そこで本研究では、エージェントが生の感覚入力に基づいて、説明可能で優先度の高い意思決定をすることで、MSタスクを効率的に実行できるようにする強化学習フレームワークXPG-RLを紹介する。
XPG-RLは、タスク駆動のアクション優先化機構と学習コンテキスト対応のスイッチング戦略を統合し、ターゲット把握、オクルージョン除去、視点調整などのアクションプリミティブの離散セットから動的に選択する。
この戦略では、ポリシーは、アクションプリミティブ間の個別選択を管理する適応しきい値の出力に最適化される。
知覚モジュールは、RGB-D入力に意味的および幾何学的特徴を融合させ、下流決定のための構造化シーン表現を生成する。
XPG-RL はタスク成功率と動作効率において一貫したベースライン法より優れており、長期タスクでは4.5$\times$高い効率で達成されている。
これらの結果は、堅牢で効率的なロボット操作のための学習可能な意思決定ポリシーとドメイン知識を統合することの利点を浮き彫りにする。
関連論文リスト
- Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [78.15330971155778]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文 参考訳(メタデータ) (2025-04-27T07:27:17Z) - A Local Information Aggregation based Multi-Agent Reinforcement Learning for Robot Swarm Dynamic Task Allocation [4.144893164317513]
分散化された部分観測可能なマルコフ決定プロセス(Dec_POMDP)を用いた新しいフレームワークを提案する。
我々の方法論の核心は、局所情報集約多元決定政策勾配(LIA_MADDPG)アルゴリズムである。
実験により,LIAモジュールは様々なCTDEベースのMARL法にシームレスに統合可能であることが示された。
論文 参考訳(メタデータ) (2024-11-29T07:53:05Z) - Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation [24.984938229619075]
強化学習は動的環境における意思決定プロセスに革命をもたらした。
正確な環境情報がないため、明確なフィードバック信号の提供は困難である。
本研究では,タスク完了時の自律目標検出と停止のための自己フィードバック機構を開発する。
論文 参考訳(メタデータ) (2024-09-14T21:42:17Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。