RLDX-1 Technical Report
Abstractの概要
RLDX-1は、Multi-Stream Action Transformer(MSAT)に基づく器用な操作のための汎用ビジョン・言語・行動(VLA)ポリシーである。従来のVLAに欠けていた運動認識、長期記憶、物理センシングの能力に対応するため、時間認識型VLMにモーションモジュール、明示的メモリモジュール、トルクおよび触覚入力用の物理ストリームを組み合わせている。フレームワーク全体には、モーション一貫性フィルタリングを用いた合成データ生成、3段階の学習パイプライン(事前学習、エンボディメント固有の中間学習、タスク固有の後学習)、およびリアルタイム展開のための推論最適化が含まれる。本論文では、シミュレーションベンチマークおよび実世界のヒューマノイド(OpenArm、ALLEX)と単腕(Franka Research 3)プラットフォームにおいてモデルを評価し、π0.5やGR00T N1.6を含む最近のVLAベースラインと比較している。
新規性
本論文の主な新規性は、運動認識、長期記憶、物理センシングを、孤立したアドオンとして扱うのではなく、モダリティ固有のストリームと共同自己注意によって結合された単一のアクショントランスフォーマー内に明示的に統合する統一VLAアーキテクチャ(MSAT)にある。さらに、このアーキテクチャをモーション一貫性フィルタリングを特徴とする合成データキュレーションパイプライン、3段階の学習手順、および展開指向の推論最適化と組み合わせ、単一のエンドツーエンドロボティクスフレームワークとして提示している。
成果
シミュレーションベンチマークにおいて、RLDX-1はGR-1 Tabletop(GR00T N1.6の47.6%に対し58.7%)やRoboCasa365(次点の26.9%に対し平均32.1%)などの困難な設定を含め、報告されたVLAベースラインを一貫して上回っている。実世界のALLEXヒューマノイド実験では、RLDX-1は全体成功率86.8%を達成し、π0.5およびGR00T N1.6の約40%を大幅に上回り、長期記憶を必要とするObject-in-Box Selectionタスクでは91.7%を達成した。推論レイテンシは、静的グラフ変換とカーネル最適化により、全モダリティモデルで71.2msから43.7ms(1.63倍の高速化)に削減された。
論文の注目点
- RLDX-1はMSATを中心とし、異種モダリティをモダリティ固有のストリーム(認知、行動、物理)で処理し共同自己注意で結合することで、視覚・言語・固有受容感覚・記憶・物理センシング入力からの行動生成を支援する。
- 学習レシピは、大規模公開ロボットデータ、社内ヒューマノイドおよびFR3データ、フィルタリングされた合成ロボット動画を組み合わせ、事前学習、エンボディメント固有の中間学習、テキストベースVLM批評者によるオプションの強化学習を含むタスク固有の後学習の3段階で構成される。
- シミュレーションと実世界の両ベンチマークにおける実証結果は、RLDX-1が運動認識、長期記憶、または物理フィードバックを必要とするタスクで最近のVLAより特に優れており、標準的な汎用知能ベンチマークでもベースラインを上回ることを示している。