論文の概要: SID: Sliding into Distribution for Robust Few-Demonstration Manipulation
- arxiv url: http://arxiv.org/abs/2605.13428v1
- Date: Wed, 13 May 2026 12:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.037261
- Title: SID: Sliding into Distribution for Robust Few-Demonstration Manipulation
- Title(参考訳): SID:ロバストなFew-Demonstration操作のための分散への滑り込み
- Authors: Yicheng Ma, Wei Yu, Zhian Su, Xidan Zhang, Huixu Dong,
- Abstract要約: オブジェクトのポーズ、視点、ダイナミックな障害に対するロボット操作の一般化は、特にいくつかのデモでは困難である。
本研究では,標準化された実演からオブジェクト中心の運動場を学習する構造化フレームワークであるSliding into Distributionを提案する。
- 参考スコア(独自算出の注目度): 7.133889438999905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing robotic manipulation across object poses, viewpoints, and dynamic disturbances is difficult, especially with only a few demonstrations. End-to-end visuomotor policies are expressive but data-hungry, while planning and optimization satisfy explicit constraints but do not directly capture the interaction strategies demonstrated by humans. We propose Sliding into Distribution (SID), a structured framework that learns an object-centric motion field from canonicalized demonstrations to iteratively slide the system toward the demonstrated manifold and into the reliable operating region of a lightweight egocentric execution policy, mitigating out-of-distribution (OOD) execution. The motion field provides large corrective motions when far from the demonstration manifold and naturally vanishes near convergence, enabling robust reaching under substantial pose and viewpoint shifts. Within the reached regime, an egocentric policy trained with conditioned flow matching performs task-specific manipulation, supported by kinematically consistent point-cloud reprojection augmentation that preserves action-observation consistency. Across six real-world tasks, SID achieves approximately 90% success under OOD initializations with only two demonstrations, with under a 10% drop under distractors and external disturbances. Overall, SID provides a new paradigm for few-shot manipulation: explicitly managing distribution shift via online distribution recovery.
- Abstract(参考訳): オブジェクトのポーズ、視点、ダイナミックな障害に対するロボット操作の一般化は、特にいくつかのデモでは困難である。
エンド・ツー・エンドのビジュモータポリシーは表現力があるが、データ・ハングリーであり、計画と最適化は明示的な制約を満たすが、人間によって示される相互作用戦略を直接捉えない。
本研究では,Sliding into Distribution (SID) という,標準的な実演からオブジェクト中心の運動場を学習し,実験対象の多様体に向かって反復的にシステムをスライドさせ,軽量な自己中心型実行ポリシの信頼性の高い動作領域に投入し,アウト・オブ・ディストリビューション(OOD)の実行を緩和する構造的フレームワークを提案する。
運動場は、実演多様体から遠く離れて自然に収束近くで消えるときに大きな補正運動を与え、実質的なポーズと視点シフトの下で頑健な到達を可能にする。
到達した体制の中では、条件付きフローマッチングで訓練されたエゴセントリックなポリシーがタスク固有の操作を実行する。
現実世界の6つのタスクの中で、SIDはOODの初期化で約90%の成功を達成し、わずか2回のデモで10%以下が障害や外乱で達成された。
全体として、SIDは、オンライン配信リカバリを通じて配信シフトを明示的に管理する、いくつかのショット操作のための新しいパラダイムを提供する。
関連論文リスト
- Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models [15.486973209713954]
GTA-VLA(Guide, Think, Act)はインタラクティブなビジョンランゲージ・アクション・フレームワークである。
ユーザがロボットポリシーを明示的な視覚的手がかりでガイドできるようにすることで、空間的に操作可能な具体的推論を可能にする。
論文 参考訳(メタデータ) (2026-05-13T14:58:29Z) - MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation [4.439585594082787]
実世界の微視的操作、特に双方向操作では、低レイテンシ制御と安定した視覚的位置決めが必要となる。
ACTのようなアクションチャンキングポリシーは、低レイテンシの実行とデータ効率を可能にするが、空間的一貫性を明示することなく、密集した視覚的特徴に依存している。
安定な2次元アテンションポイントを抽出し,時間的アライメントロスを伴う将来のアテンションシーケンスを共同で予測する多段階空間アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2026-05-01T07:35:15Z) - Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation [91.20850436220267]
Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
論文 参考訳(メタデータ) (2026-04-07T07:41:11Z) - Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning [5.002036203828793]
乱雑な環境における分散的協調的追跡は、自律的な空中群れにとって困難である。
本稿では,LDARの生観測を直接連続制御コマンドにマッピングする分散エンドツーエンドのマルチエージェント強化学習フレームワークを提案する。
単一の分散ポリシにより、エージェントは静的障害をナビゲートし、動的ターゲットをインターセプトし、協調的な囲いを維持することができる。
論文 参考訳(メタデータ) (2026-03-25T12:23:35Z) - Trace-Focused Diffusion Policy for Multi-Modal Action Disambiguation in Long-Horizon Robotic Manipulation [27.077503086179863]
Trace-Focused Diffusion Policy (TF-DP) は、ロボットの実行履歴にアクション生成を明示的に条件付ける拡散ベースのフレームワークである。
実世界のロボット操作作業におけるTF-DPの評価を行った。
論文 参考訳(メタデータ) (2026-02-07T06:06:43Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。