論文の概要: Hybrid Offline-Online Reinforcement Learning for Sensorless, High-Precision Force Regulation in Surgical Robotic Grasping
- arxiv url: http://arxiv.org/abs/2602.23870v1
- Date: Fri, 27 Feb 2026 10:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.761807
- Title: Hybrid Offline-Online Reinforcement Learning for Sensorless, High-Precision Force Regulation in Surgical Robotic Grasping
- Title(参考訳): 外科用ロボットグラスピングにおけるセンサレス高精度力制御のためのハイブリッドオフライン強化学習
- Authors: Edoardo Fazzari, Omar Mohamed, Khalfan Hableel, Hamdan Alhadhrami, Cesare Stefanini,
- Abstract要約: 物理一貫性モデリングとハイブリッド強化学習を組み合わせたセンサレス制御フレームワークを提案する。
本研究では,電気・伝達・顎運動の結合を捉えるダ・ヴィンチ・シグルーピング機構の第1原理のディジタル双極子を開発した。
シミュレーションでは、マルチハーモニック顎運動において、コントローラは所望の基準の1%以内の把持力を維持できる。
- 参考スコア(独自算出の注目度): 2.874057693956189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise grasp force regulation in tendon-driven surgical instruments is fundamentally limited by nonlinear coupling between motor dynamics, transmission compliance, friction, and distal mechanics. Existing solutions typically rely on distal force sensing or analytical compensation, increasing hardware complexity or degrading performance under dynamic motion. We present a sensorless control framework that combines physics-consistent modeling and hybrid reinforcement learning to achieve high-precision distal force regulation in a proximally actuated surgical end-effector. We develop a first-principles digital twin of the da Vinci Xi grasping mechanism that captures coupled electrical, transmission, and jaw dynamics within a unified differential-algebraic formulation. To safely learn control policies in this stiff and highly nonlinear system, we introduce a three-stage pipeline:(i)a receding-horizon CMA-ES oracle that generates dynamically feasible expert trajectories,(ii)fully offline policy learning via Implicit Q-Learning to ensure stable initialization without unsafe exploration, and (iii)online refinement using TD3 for adaptation to on-policy dynamics. The resulting policy directly maps proximal measurements to motor voltages and requires no distal sensing. In simulation, the controller maintains grasp force within 1% of the desired reference during multi-harmonic jaw motion. Hardware experiments demonstrate average force errors below 4% across diverse trajectories, validating sim-to-real transfer. The learned policy contains approximately 71k param and executes at kH rates, enabling real-time deployment. These results demonstrate that high-fidelity modeling combined with structured offline-online RL can recover precise distal force behavior without additional sensing, offering a scalable and mechanically compatible solution for surgical robotic manipulation.
- Abstract(参考訳): 腱駆動型手術器具の精密握力制御は, 運動力学, 伝達コンプライアンス, 摩擦, 遠位力学の非線形結合によって根本的に制限される。
既存のソリューションは通常、遠位力の検知や解析的補償、ハードウェアの複雑さの増加、動的動作による性能低下に依存している。
本稿では, 物理モデルとハイブリッド強化学習を組み合わせたセンサレス制御フレームワークを提案し, 近接動作型外科用エンドエフェクタの高精度遠位力制御を実現する。
我々は,統合された微分代数的定式化において,電気・伝達・顎運動の結合を捕捉するダ・ヴィンチ・シグルーピング機構の第一原理ディジタル双対を開発する。
この厳密で高非線形なシステムで制御ポリシーを安全に学習するために、3段階のパイプラインを導入します。
一 動的に実現可能な専門家軌道を生成する後退水平CMA-ESオラクル
二 安全でない調査をせずに安定した初期化を確保するため、インプリシットQ-ラーニングによるオフライン政策学習
(iii)TD3を用いたオンラインリファインメントをオン・ポリケーシズムに適応させる。
結果として得られるポリシーは、近位測定を直接モータ電圧にマッピングし、遠位感知を必要としない。
シミュレーションでは、マルチハーモニック顎運動において、コントローラは所望の基準の1%以内の把持力を維持できる。
ハードウェア実験は、様々な軌道で4%以下の平均力誤差を示し、sim-to-real転送を検証する。
学習されたポリシーは、約71kのパラムを含み、kHレートで実行し、リアルタイムデプロイメントを可能にする。
これらの結果は、高忠実度モデリングと構造化オフラインRLが組み合わさって、付加的な感覚を伴わずに正確な遠位力挙動を回復できることを示し、手術ロボット操作のためのスケーラブルで機械的に適合したソリューションを提供する。
関連論文リスト
- Master Micro Residual Correction with Adaptive Tactile Fusion and Force-Mixed Control for Contact-Rich Manipulation [11.467329921917546]
M2-ResiPolicyは、高レベルのアクションガイダンスと低レベルの修正を相乗化する新しいマスターマイクロ残差制御アーキテクチャである。
M2-ResiPolicyは標準拡散政策と最先端のリアクティブ拡散政策を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-16T11:47:52Z) - Tendon Force Modeling for Sim2Real Transfer of Reinforcement Learning Policies for Tendon-Driven Robots [4.374417345150659]
本稿では,典型的なサーボモータの腱力をモデル化する手法を提案する。
次に,GPUによる力駆動型剛体シミュレーションにおいて,我々の力推定モデルを用いてRL制御系を訓練する。
我々のモデルは最大運動力の3%以内の腱力を予測でき、ロボットに依存しない。
論文 参考訳(メタデータ) (2026-03-04T18:16:58Z) - Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation [12.509181374985936]
複数の指を持つ人間のような器用な手は、人間レベルの操作機能を提供する。
しかし、実際のハードウェアに直接デプロイ可能なトレーニングコントロールポリシは、コンタクトリッチな物理のため、依然として難しいままです。
本稿では,高密度触覚フィードバックと関節トルクセンシングを併用して身体的相互作用を調節する実践的枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T07:26:39Z) - PHANTOM: Physics-Aware Adversarial Attacks against Federated Learning-Coordinated EV Charging Management System [2.5019498860784926]
我々は,多エージェント強化学習モデルを用いてトレーニングし,最適化した物理認識型対向ネットワークPHANTOMを提案する。
その結果、学習した攻撃ポリシーが負荷分散を阻害し、TとDの境界を越えて伝播する電圧不安定性を誘導する方法が示されている。
論文 参考訳(メタデータ) (2025-12-26T20:54:16Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。