論文の概要: Jacobian Exploratory Dual-Phase Reinforcement Learning for Dynamic Endoluminal Navigation of Deformable Continuum Robots
- arxiv url: http://arxiv.org/abs/2509.00329v1
- Date: Sat, 30 Aug 2025 03:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.180531
- Title: Jacobian Exploratory Dual-Phase Reinforcement Learning for Dynamic Endoluminal Navigation of Deformable Continuum Robots
- Title(参考訳): 変形可能な連続ロボットの動的内在性ナビゲーションのためのジャコビアン探索2相強化学習
- Authors: Yu Tian, Chi Kit Ng, Hongliang Ren,
- Abstract要約: 変形可能な連続ロボット(DCR)は、非線形変形力学と部分状態観測性により、ユニークな計画課題を提示する。
本稿では,計画を段階的ジャコビアン推定と政策実行に分解するフレームワークであるJacobian Exploratory Dual-Phase RL(JEDP-RL)を提案する。
- 参考スコア(独自算出の注目度): 11.169457209940857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deformable continuum robots (DCRs) present unique planning challenges due to nonlinear deformation mechanics and partial state observability, violating the Markov assumptions of conventional reinforcement learning (RL) methods. While Jacobian-based approaches offer theoretical foundations for rigid manipulators, their direct application to DCRs remains limited by time-varying kinematics and underactuated deformation dynamics. This paper proposes Jacobian Exploratory Dual-Phase RL (JEDP-RL), a framework that decomposes planning into phased Jacobian estimation and policy execution. During each training step, we first perform small-scale local exploratory actions to estimate the deformation Jacobian matrix, then augment the state representation with Jacobian features to restore approximate Markovianity. Extensive SOFA surgical dynamic simulations demonstrate JEDP-RL's three key advantages over proximal policy optimization (PPO) baselines: 1) Convergence speed: 3.2x faster policy convergence, 2) Navigation efficiency: requires 25% fewer steps to reach the target, and 3) Generalization ability: achieve 92% success rate under material property variations and achieve 83% (33% higher than PPO) success rate in the unseen tissue environment.
- Abstract(参考訳): 変形可能な連続ロボット(DCR)は, 従来の強化学習(RL)法におけるマルコフの仮定に反し, 非線形変形力学と部分状態観測性により, 独自の計画課題を提示する。
ヤコビアンに基づくアプローチは剛性マニピュレータの理論的基礎を提供するが、DCRへの直接的適用は時変キネマティクスと不動変形力学によって制限されている。
本稿では,計画を段階的ジャコビアン推定と政策実行に分解するフレームワークであるJacobian Exploratory Dual-Phase RL(JEDP-RL)を提案する。
各トレーニングステップにおいて、まず、変形ヤコビアン行列を推定するために小さな局所探索動作を行い、その後、ヤコビアン特徴を持つ状態表現を拡張して近似マルコビアン性を復元する。
JEDP-RLのPPOベースラインに対する3つの重要なアドバンテージは以下のとおりである。
1)収束速度:3.2倍高速な政策収束
2)航法効率:目標に到達するためには25%のステップを要し、
3) 一般化能: 材料特性変化下で92%の成功率, 83%(PPOよりも33%高い)成功率を達成した。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
CRISPは、階層的強化学習における不安定性に取り組むカリキュラム駆動のフレームワークである。
現在の低レベルプリミティブによって常に到達可能なサブゴールを生成するために、エキスパートのデモを適応的にリラベルする。
強い階層的ベースラインと平坦なベースラインに対して、成功率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。