論文の概要: OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.25829v1
- Date: Mon, 25 May 2026 13:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.135672
- Title: OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation
- Title(参考訳): OASIS: ロボットマニピュレーションのためのSE(3)軌道予測による観測・観測空間アライメント
- Authors: Xinzhe Chen, Sihua Ren, Liqi Huang, Haowen Sun, Mingyang Li, Xingyu Chen, Zeyang Liu, Xuguang Lan,
- Abstract要約: 本稿では,中間表現と作用空間を$SE(3)$ trajectory predictionで整列するビジュモータポリシーを提案する。
OASISは、3D対応の機能エンコーダを結合し、視覚言語とメートル法深度機能を$SE(3)$ trajectory predictorで融合する。
OASISは、VLAとWAMのベースラインを成功率とアウト・オブ・ディストリビューションの一般化で上回っている。
- 参考スコア(独自算出の注目度): 41.754765514902736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language-action (VLA) models and world action models (WAMs) advance robotic manipulation by enriching intermediate representations with auxiliary spatial features or future visual-state prediction. However, these representations largely remain within the observation space and do not share the rigid-body geometry of the action space, forcing the action decoder to implicitly recover this geometry. We propose OASIS, a visuomotor policy that aligns the intermediate representation with the action space via $SE(3)$ end-effector trajectory prediction. OASIS couples a 3D-aware feature encoder that fuses vision-language and metric-depth features with an $SE(3)$ trajectory predictor that produces a camera-frame end-effector trajectory. Conditioned on the predictor's pose-supervised hidden states, the action decoder generates action chunks consistent with rigid-body motion. Across simulation and real-world experiments, OASIS outperforms VLA and WAM baselines in success rate and out-of-distribution generalization. Our project page is available at https://npuhandsome.github.io/OASIS_web.
- Abstract(参考訳): 近年の視覚言語行動モデル(VLA)と世界行動モデル(WAM)は、補助的な空間的特徴や将来の視覚状態予測を備えた中間表現を豊かにすることにより、ロボット操作を推し進めている。
しかしながら、これらの表現は観測空間内に留まり、アクション空間の剛体幾何学を共有しないため、アクションデコーダは暗黙的にこの幾何学を回復せざるを得ない。
OASISは, 中間表現と作用空間を$SE(3)$ end-effector trajectory prediction で整列するビズモータポリシである。
OASISは、3D対応の機能エンコーダと、カメラフレームのエンドエフェクタ・トラジェクタを生成するSE(3)$のトラジェクタを融合させる。
予測子のポーズ制御された隠れ状態に基づいて、アクションデコーダは剛体運動と整合したアクションチャンクを生成する。
シミュレーションと実世界の実験を通じて、OASISはVLAとWAMのベースラインを成功率とアウト・オブ・ディストリビューションの一般化で上回っている。
プロジェクトページはhttps://npuhandsome.github.io/OASIS_web.comで公開されている。
関連論文リスト
- GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation [55.730453997808006]
textbfGaussianDreamは、3Dガウスの世界モデルプラグインで、ロボットの軌跡を構造化された時空間監視に変換する。
LIBERO、RoboCasa Human-50、および実ロボットタスクの実験は、強力で高い競争力を示す。
論文 参考訳(メタデータ) (2026-05-20T05:51:30Z) - VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation [30.24537271257149]
STARRYは、空間的時間的予測と行動生成を整合させる世界モデル強化アクションジェネレーションポリシーである。
RoboTwin 2.0では、クリーンでランダムな設定で平均93.82% / 93.30%の成功を達成した。
これらの結果は,ロボット操作の空間的・時間的要求に対する行動中心型時空間世界モデリングの有効性を示す。
論文 参考訳(メタデータ) (2026-04-29T16:13:39Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation [23.19464039872024]
FlowHOIは、時間的にコヒーレントなHOIシーケンスを生成するフローマッチングフレームワークである。
本研究では,FlowHOIが最も高い動作認識精度と1.7$times$高い物理シミュレーション成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-02-13T20:46:08Z) - GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation [26.632472450402947]
VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心のままである。
予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。
RoboCasa Human-50、LIBERO、実世界の操作タスクの実験は、GeoPredictが強いVLAベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-18T17:51:42Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。