Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation
Abstractの概要
本論文は、実行中に人間または高レベルプランナーから提供される疎な3D参照点を組み込んだ、ロボットマニピュレーションのための閉ループ模倣学習フレームワークReV(Referring-Aware Visuomotor Policy)を提案する。このアーキテクチャは結合拡散ヘッドを使用しており、Global Diffusion Head(GDH)が時間的に疎だがグローバルに一貫したアクションアンカーを生成し、Local Diffusion Head(LDH)が学習可能な時間位置依存戦略を通じてそれらを細粒度の実行可能な軌道に補間する。時間位置予測モジュールが参照点の軌道タイムライン上の位置を特定し、マスク付き軌道ステアリング機構がデノイジング中に参照点近傍の通過を強制する。学習は、標的型摂動(摂動アクションの7次多項式スプラインブレンディング)で拡張されたエキスパートデモンストレーションのみに依存しており、追加の修正データセットや事後ファインチューニングを必要としない。
新規性
主な新規性は、リカバリデータや事後ファインチューニングを必要とせず、マニピュレーションポリシーが疎な外部3D経由点にオンラインで反応できる参照認識型模倣学習フレームワークにある。アーキテクチャ面では、結合拡散ヘッド(疎なグローバルアンカー用のGDHと時間位置条件付き密補間用のLDH)を、時間位置予測モジュールおよびマスク付き軌道ステアリング戦略と組み合わせることで、点レベルの空間的ガイダンスの下での粗から細への軌道再計画を実現している。
成果
4つの改変されたシミュレーション経由点タスクにおいて、ReVは全ケースで100%の領域通過率を達成し、成功率は91%、100%、50%、92%であり、提供された参照点の追従にほぼ失敗するベースライン(ACT、DP3、CDP、OCTO、MPD)を大幅に上回った。結合拡散ヘッドアーキテクチャは、Adroit、DexArt、MetaWorld、RoboFactoryベンチマークにまたがる13タスクにおいても、ACT、DP3、CDPと比較してタスク成功率を向上させた。5つの実世界参照認識タスクでは、ReVは全タスクで30/30の通過試行を達成し、タスク成功数は20/30、21/30、15/30、18/30、12/30であり、ACTおよびDPベースラインを上回った。
論文の注目点
- ReVは時間位置予測モジュールとマスク付き軌道ステアリング戦略を用いて、疎な外部3D参照点を閉ループマニピュレーション軌道に組み込み、全シミュレーション経由点タスクで100%の領域通過率を達成しつつタスク完了を維持している。
- 結合拡散ヘッドアーキテクチャは、長期的なグローバル計画(疎なアクションアンカー用のGDH)と短期的な密軌道生成(時間位置条件付き補間によるLDH)を分離し、13のシミュレーションベンチマークにおいてACT、DP3、CDPと比較して一貫してタスク成功率を向上させている。
- 本フレームワークは標的型摂動で拡張されたエキスパートデモンストレーションのみから学習され、修正データセットやファインチューニングを必要とせず、分布外の参照点に対しても偏差の増大に伴う緩やかな性能低下というロバスト性を示している。