論文の概要: GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
- arxiv url: http://arxiv.org/abs/2602.22862v1
- Date: Thu, 26 Feb 2026 10:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.65262
- Title: GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
- Title(参考訳): GraspLDP:潜伏拡散による一般化可能な粒度政策を目指して
- Authors: Enda Xiang, Haoxiang Ma, Xinzhu Ma, Zicheng Liu, Di Huang,
- Abstract要約: 本稿では,模倣学習を通じて学習した操作ポリシーの把握精度の向上と一般化に焦点を当てた。
既存の把握のための模倣学習技術は、しばしば不正確な把握の実行、空間的一般化の制限、オブジェクトの一般化の不足に悩まされる。
- 参考スコア(独自算出の注目度): 44.168491831527355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on enhancing the grasping precision and generalization of manipulation policies learned via imitation learning. Diffusion-based policy learning methods have recently become the mainstream approach for robotic manipulation tasks. As grasping is a critical subtask in manipulation, the ability of imitation-learned policies to execute precise and generalizable grasps merits particular attention. Existing imitation learning techniques for grasping often suffer from imprecise grasp executions, limited spatial generalization, and poor object generalization. To address these challenges, we incorporate grasp prior knowledge into the diffusion policy framework. In particular, we employ a latent diffusion policy to guide action chunk decoding with grasp pose prior, ensuring that generated motion trajectories adhere closely to feasible grasp configurations. Furthermore, we introduce a self-supervised reconstruction objective during diffusion to embed the graspness prior: at each reverse diffusion step, we reconstruct wrist-camera images back-projected the graspness from the intermediate representations. Both simulation and real robot experiments demonstrate that our approach significantly outperforms baseline methods and exhibits strong dynamic grasping capabilities.
- Abstract(参考訳): 本稿では,模倣学習を通じて学習した操作ポリシーの把握精度の向上と一般化に焦点を当てた。
拡散に基づくポリシー学習手法がロボット操作タスクの主流となっている。
グルーピングは操作において重要なサブタスクであるため、正確に一般化可能なグルーピングを実行するための模倣学習ポリシーの能力は、特に注目に値する。
既存の把握のための模倣学習技術は、しばしば不正確な把握実行、空間一般化の制限、オブジェクトの一般化の欠如に悩まされる。
これらの課題に対処するため、我々は事前知識の把握を拡散政策の枠組みに組み入れた。
特に,動作チャンクの復号化を事前のグリップポーズで導くために,遅延拡散ポリシを用いて,生成した動き軌跡が実行可能なグリップ構成に密着することを保証する。
さらに,各逆拡散ステップにおいて,中間表現からの把握性を逆投影した手首カメラ画像の再構成を行う。
シミュレーションと実ロボット実験の両方で,本手法がベースライン法を著しく上回り,強力な動的把握能力を示すことを示した。
関連論文リスト
- Learning Generalizable Visuomotor Policy through Dynamics-Alignment [13.655111993491674]
ビデオ予測モデルを利用した最近のアプローチは、大規模データセットからリッチな表現を学習することで、有望な結果を示している。
本稿では,ダイナミックス予測をポリシ学習に統合するDAP(Dynamics-Aligned Flow Matching Policy)を提案する。
提案手法では,ポリシーモデルと動的モデルが相互に行動生成のフィードバックを与え,自己補正を実現し,一般化を向上するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-31T02:29:33Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Maximum Total Correlation Reinforcement Learning [23.209609715886454]
誘導軌道内の全相関を最大化する強化学習問題を修正した。
シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
論文 参考訳(メタデータ) (2025-05-22T14:48:00Z) - Towards Principled Unsupervised Multi-Agent Reinforcement Learning [49.533774397707056]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文 参考訳(メタデータ) (2025-02-12T12:51:36Z) - ImitDiff: Transferring Foundation-Model Priors for Distraction Robust Visuomotor Policy [39.06557194970261]
ImitDiff(イミットディフ)は、微細な意味論によって導かれる拡散に基づく模倣学習政策である。
提案手法は,高レベルの命令を画素レベルの視覚意味マスクに変換する。
ImitDiffは、新しいオブジェクトや視覚的邪魔を含むゼロショット設定において、強力な一般化を示している。
論文 参考訳(メタデータ) (2025-02-11T14:03:57Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。