論文の概要: Deformable Cluster Manipulation via Whole-Arm Policy Learning
- arxiv url: http://arxiv.org/abs/2507.17085v1
- Date: Tue, 22 Jul 2025 23:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.807365
- Title: Deformable Cluster Manipulation via Whole-Arm Policy Learning
- Title(参考訳): オールアーム政策学習による変形可能なクラスタ操作
- Authors: Jayadeep Jacob, Wenzheng Zhang, Houston Warren, Paulo Borges, Tirthankar Bandyopadhyay, Fabio Ramos,
- Abstract要約: 本稿では,3次元点雲とプロプリセプティブタッチインジケータという2つのモードを統合したモデルフリーポリシーの学習フレームワークを提案する。
我々の強化学習フレームワークは,カーネル平均埋め込みによる分散状態表現を利用して,学習効率の向上とリアルタイム推論を実現する。
我々は、このフレームワークを電力線クリアランスシナリオに展開し、エージェントが複数のアームリンクを利用して非閉塞性を実現する創造的戦略を生成することを観察する。
- 参考スコア(独自算出の注目度): 27.54191389134963
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Manipulating clusters of deformable objects presents a substantial challenge with widespread applicability, but requires contact-rich whole-arm interactions. A potential solution must address the limited capacity for realistic model synthesis, high uncertainty in perception, and the lack of efficient spatial abstractions, among others. We propose a novel framework for learning model-free policies integrating two modalities: 3D point clouds and proprioceptive touch indicators, emphasising manipulation with full body contact awareness, going beyond traditional end-effector modes. Our reinforcement learning framework leverages a distributional state representation, aided by kernel mean embeddings, to achieve improved training efficiency and real-time inference. Furthermore, we propose a novel context-agnostic occlusion heuristic to clear deformables from a target region for exposure tasks. We deploy the framework in a power line clearance scenario and observe that the agent generates creative strategies leveraging multiple arm links for de-occlusion. Finally, we perform zero-shot sim-to-real policy transfer, allowing the arm to clear real branches with unknown occlusion patterns, unseen topology, and uncertain dynamics.
- Abstract(参考訳): 変形可能なオブジェクトのクラスタを操作することは、広範囲の応用性において重大な課題となるが、接触に富む全腕相互作用が必要である。
潜在的な解決策は、現実的なモデル合成の限られた能力、認識の不確実性、効率的な空間抽象の欠如などに対処する必要がある。
本稿では,従来のエンドエフェクタモードを超越した,全身接触認識による操作を重視した3次元点雲と固有タッチインジケータという2つのモードを統合したモデルフリーポリシーの学習フレームワークを提案する。
我々の強化学習フレームワークは,カーネル平均埋め込みによる分散状態表現を利用して,学習効率の向上とリアルタイム推論を実現する。
さらに, 被曝作業対象領域から変形物を明確にするための, 文脈に依存しない新規な隠蔽ヒューリスティックを提案する。
我々は、このフレームワークを電力線クリアランスシナリオに展開し、エージェントが複数のアームリンクを利用して非閉塞性を実現する創造的戦略を生成することを観察する。
最後に、ゼロショットのsim-to-realポリシー転送を行い、腕が未知の閉塞パターン、見えないトポロジー、不確実なダイナミクスでリアルブランチをクリアできるようにする。
関連論文リスト
- Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Activation Space Interventions Can Be Transferred Between Large Language Models [0.0]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文 参考訳(メタデータ) (2025-03-06T13:38:44Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned
Interactive Trajectory Prediction [29.701029725302586]
目標条件付きフレームワークを用いた共同軌道予測問題について検討する。
本研究では,条件付き変分自動エンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。
KLの消滅を回避する新しい手法を提案し、擬似ラベルを用いた解釈可能な対話型潜在空間を誘導する。
論文 参考訳(メタデータ) (2022-03-28T21:41:21Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。