Action Images: End-to-End Policy Learning via Multiview Video Generation
Abstractの概要
本論文は、ロボットの方策学習をマルチビュー動画生成として定式化する統合的なワールド・アクションモデル「Action Images」を提案している。7自由度のロボット動作(エンドエフェクタの位置、姿勢、グリッパー開度)を、3つの意味的3Dポイントを画像空間に投影しRGBガウシアンヒートマップとして描画することで、ピクセルに基づくマルチビューアクション画像に変換する。事前学習済み動画生成モデル(Wan 2.2)をファインチューニングし、共有表現のもとで観察動画とアクション動画を統合的にモデル化し、マスキング戦略により同時生成、アクション条件付き動画生成、動画からアクションへのラベリング、動画のみの生成をサポートする。RLBenchおよびxArmロボットを用いた実世界ロボット環境での実験により、複数のワールドモデルおよび方策ベースラインと比較して、ゼロショット方策成功率の向上と動画・アクション同時生成品質の優位性が実証された。
新規性
主な新規性は、ロボット制御を解釈可能でピクセルに基づくマルチビューアクション画像(エンドエフェクタの位置、姿勢、グリッパー状態をエンコードするRGBヒートマップ)として表現し、アクションを観察と同じ動画空間にネイティブに統合する点にある。これにより、単一の動画バックボーンが別途の方策ヘッドやアクションモジュールを必要とせずにゼロショット方策として機能し、同時生成、アクション条件付き動画生成、動画からアクションへのラベリングを一つのモデルで統一することが可能となる。
成果
ゼロショット評価において、本手法はRLBenchおよび実世界xArm環境の両方で比較ベースラインの中で最も高い総合タスク成功率を達成した(例:RLBenchでreach targetが60%、close drawerが50%であるのに対し、ベースラインは最大でそれぞれ5%と35%)。動画・アクション同時生成では、最良の動画指標(PSNR 23.48、SSIM 78.62%、FVD 143.74、LPIPS 0.209)を報告しつつ、競争力のあるアクション精度(3D誤差12.2×10⁻³)を達成し、アクション条件付き動画生成および動画からアクションへのラベリングにおいてもタスク固有のベースラインを上回った。
論文の注目点
- Action Imagesは7自由度のロボット動作をマルチビューRGBガウシアンヒートマップ動画に変換し、エンドエフェクタの位置、姿勢(法線点と上方向点による)、グリッパー開度をピクセル空間で明示的にエンコードし、レイキャスティングとマルチビューマッチングによる幾何学的デコーダで連続的な7自由度アクションを復元する。
- 本モデルはRLBench、DROID、BridgeV2のデータ混合に対してファインチューニングしたWan 2.2バックボーン上でマスキングベースの目的関数を用いた統合ワールド・アクション生成器として学習され、一つのモデルで同時生成、アクション条件付き動画予測、動画からアクションへのラベリング、動画のみのモデリングを処理できる。
- 実験的に、本手法はRLBenchおよび実世界環境においてπ₀.₅、MolmoAct、TesserAct、Cosmos-Policyを含む比較対象の方策・ワールドモデルベースラインよりも高いゼロショットタスク成功率を達成し、特に未見の物体や環境を含む分布シフト条件下で顕著な性能向上が見られた。
参考リンク
- arXiv: https://arxiv.org/abs/2604.06168v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.06168v1
- Hugging Face Papers: https://huggingface.co/papers/2604.06168
- Project: https://ActionImages.github.io