論文の概要: L-SDPPO: Policy Optimization of Spiking Diffusion Policy for Intra-vehicular Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.06049v1
- Date: Thu, 04 Jun 2026 11:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.765086
- Title: L-SDPPO: Policy Optimization of Spiking Diffusion Policy for Intra-vehicular Robotic Manipulation
- Title(参考訳): L-SDPPO:車内ロボットマニピュレーションのためのスパイキング拡散政策の最適化
- Authors: Liwen Zhang, Dong Zhou, Guanghui Sun, Yifei Zheng, Yuhui Hu, Kaihong Ouyang, Zuoquan Zhao,
- Abstract要約: 本稿では,SDP(Spking Diffusion Policy)をRLアルゴリズムで最適化した低エネルギー車内ロボット操作フレームワークL-SDPを提案する。
本手法は,最先端のロボット操作法と比較して,高い成功率と低エネルギー化を実現していることを示す。
- 参考スコア(独自算出の注目度): 8.231045397003117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intra-vehicular robots in spacecraft help reduce astronaut workload and improve mission efficiency. Recent research focuses on using deep learning methods to achieve the acute control required for operations in these complex environments. However, objects exhibit unpredictable, unconstrained drift without gravitational damping. These factors demand robustness against complex multimodal action distributions. Diffusion policies (DP) can model these complex actions, but their iterative sampling process consumes too much energy for the limited power budgets of spacecraft. We therefore propose a low-energy intra-vehicular robotic manipulation framework, L-SDPPO, in which the Spiking Diffusion Policy (SDP) is optimized with a reinforcement learning (RL) algorithm. Furthermore, to address the insufficient perception of dynamic spatiotemporal features in microgravity, we propose the statedependent latency injection (SDLI) mechanism, which mimics biological neural delays to dynamically regulate the timing of input information. Evaluation on five representative intra-vehicular daily tasks (e.g., hatch opening and precision container capping) shows that our method consistently achieves higher success rates and lower energy consumption, compared to the state-of-the-art robotic manipulation methods. These results demonstrate our method is a viable intra-vehicular robotic manipulation method.
- Abstract(参考訳): 宇宙船内の車内ロボットは、宇宙飛行士の作業量を減らし、ミッション効率を向上させる。
最近の研究は、これらの複雑な環境での運用に必要な急性制御を実現するために、ディープラーニング手法を使うことに焦点を当てている。
しかし、物体は重力減衰なしで予測不可能で制約のない漂流を示す。
これらの要因は、複雑なマルチモーダルな作用分布に対して堅牢性を要求する。
拡散政策(DP)はこれらの複雑な動作をモデル化することができるが、反復的なサンプリングプロセスは宇宙船の限られた電力予算のために過度のエネルギーを消費する。
そこで我々は,SDP(Spking Diffusion Policy)を強化学習(RL)アルゴリズムで最適化した低エネルギー車内ロボット操作フレームワークL-SDPPOを提案する。
さらに,微小重力下での動的時空間的特徴の認識不足に対処するために,生体神経遅延を模倣して入力情報のタイミングを動的に制御する状態依存遅延注入(SDLI)機構を提案する。
車両内日常作業(例えば、ハッチオープニングと高精度コンテナキャッピング)の代表的な5つのタスクについて評価したところ、我々の手法は、最先端のロボット操作法と比較して、常に高い成功率と省エネルギーを実現していることがわかった。
これらの結果から,本手法は車内ロボット操作法として実現可能であることが示された。
関連論文リスト
- Encoding Predictability and Legibility for Style-Conditioned Diffusion Policy [1.1549572298362782]
効率性と透明な動きのバランスを取ることは、人間とロボットのコラボレーションにおける中核的な課題である。
本稿では,事前学習した拡散モデルに対して,妥当性と効率を両立させるモジュラーフレームワークであるStyle-Conditioned Diffusion Policy (SCDP)を提案する。
操作作業やナビゲーション作業におけるSCDPの評価を行い,不明瞭な環境下での可視性を向上するとともに,可視性が不要な場合の最適効率を保っていることを示す。
論文 参考訳(メタデータ) (2026-03-17T10:55:44Z) - ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation [9.708461585583791]
重荷のロコ操作による共同輸送は、脚のあるロボットにとって難しいが必須の能力である。
本研究は,ロコマニピュレーションのための分散モデル予測制御フレームワークであるマルチプライアの交互方向法を提案する。
論文 参考訳(メタデータ) (2026-03-07T08:06:51Z) - Population-Coded Spiking Neural Networks for High-Dimensional Robotic Control [0.9916299448089259]
本稿では,集団符号化スパイキングニューラルネットワーク(SNN)と深層強化学習(DRL)を組み合わせた新しい枠組みを提案する。
我々は,従来のニューラルネットワーク(ANN)と比較して最大96.10%の省エネを実現し,比較制御性能を維持した。
これらの結果は、資源制約されたアプリケーションにおけるエネルギー効率、高性能なロボット制御のための有望なソリューションとして、人口コード付きSNNを位置づけている。
論文 参考訳(メタデータ) (2025-10-12T09:27:25Z) - Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models [57.45019514036948]
MRMP拡散(MRMP Diffusion, SMD)は, 制約付き最適化を拡散サンプリングプロセスに統合し, 衝突のない, キネマティックに実現可能な軌道を生成する新しい手法である。
本稿では, ロボット密度, 障害物の複雑度, 動作制約の異なるシナリオ間の軌道計画アルゴリズムを評価するための総合的MRMPベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:51:28Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications [11.010530034121224]
本稿では,学習速度を大幅に向上させる新しいQ-ラーニングアルゴリズムを提案する。
サンプル効率の向上は、ミッションが成功に寄与する可能性のある方向への探索を優先する、ミッション駆動の探査戦略に由来する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。