論文の概要: ISS Policy : Scalable Diffusion Policy with Implicit Scene Supervision
- arxiv url: http://arxiv.org/abs/2512.15020v2
- Date: Sun, 01 Mar 2026 10:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.387125
- Title: ISS Policy : Scalable Diffusion Policy with Implicit Scene Supervision
- Title(参考訳): ISS政策 : インシシット・シーン・スーパービジョンによるスケーラブル拡散政策
- Authors: Wenlong Xia, Jinhao Zhang, Ce Zhang, Yaojia Wang, Huizhe Li, Youmin Gong, Jie Mei,
- Abstract要約: Implicit Scene Supervision (ISS) Policy(インプリシット・シーン・スーパービジョン・ポリシー)は、点雲観測から連続的なアクションのシーケンスを予測する3次元バイスモータ DiT ベースの拡散ポリシーである。
ISSポリシーは、シングルアーム操作タスクと器用な手操作の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.72103964396824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based imitation learning has enabled impressive robotic manipulation skills, but its reliance on object appearance while ignoring the underlying 3D scene structure leads to low training efficiency and poor generalization. To address these challenges, we introduce \emph{Implicit Scene Supervision (ISS) Policy}, a 3D visuomotor DiT-based diffusion policy that predicts sequences of continuous actions from point cloud observations. We extend DiT with a novel implicit scene supervision module that encourages the model to produce outputs consistent with the scene's geometric evolution, thereby improving the performance and robustness of the policy. Notably, ISS Policy achieves state-of-the-art performance on both single-arm manipulation tasks (MetaWorld) and dexterous hand manipulation (Adroit). In real-world experiments, it also demonstrates strong generalization and robustness. Additional ablation studies show that our method scales effectively with both data and parameters. Code and videos will be released.
- Abstract(参考訳): 視覚に基づく模倣学習は、印象的なロボット操作のスキルを実現しているが、基礎となる3Dシーン構造を無視しながらオブジェクトの外観に依存しているため、トレーニング効率の低下と一般化の低さにつながっている。
これらの課題に対処するために、点雲観測から連続的なアクションのシーケンスを予測する3次元ビジュモータ DiT ベースの拡散ポリシーである \emph{Implicit Scene Supervision (ISS) Policy を導入する。
我々はDiTを暗黙的なシーン監視モジュールで拡張し、シーンの幾何学的進化と整合した出力を生成することによって、ポリシーの性能と堅牢性を向上させる。
特に、ISSポリシーは、シングルアーム操作タスク(MetaWorld)とデクスタラスハンド操作(Adroit)の両方で最先端のパフォーマンスを達成する。
実世界の実験では、強い一般化と堅牢性を示す。
追加のアブレーション研究により,本手法はデータとパラメータの両方で効果的にスケール可能であることが示された。
コードとビデオが公開される。
関連論文リスト
- OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies [75.40720507604647]
視覚言語アクション(VLA)モデルは、比較的単純なタスクの多岐にわたるジェネラリストポリシーとして、非常に有望である。
本稿では,任意の指導源を活用することで,このようなタスクにおけるVLA性能を向上させるフレキシブルなフレームワークを提案する。
本研究では,3次元空間内に存在するタスク特異的アトラクタとレペラを用いて,自然に何種類のガイダンスを微分可能エネルギー関数として表現できるかを示す。
論文 参考訳(メタデータ) (2026-03-09T17:18:13Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - ImitDiff: Transferring Foundation-Model Priors for Distraction Robust Visuomotor Policy [39.06557194970261]
ImitDiff(イミットディフ)は、微細な意味論によって導かれる拡散に基づく模倣学習政策である。
提案手法は,高レベルの命令を画素レベルの視覚意味マスクに変換する。
ImitDiffは、新しいオブジェクトや視覚的邪魔を含むゼロショット設定において、強力な一般化を示している。
論文 参考訳(メタデータ) (2025-02-11T14:03:57Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。