Fugu-MT 論文翻訳(概要): STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

論文の概要: STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2604.26848v2
Date: Fri, 01 May 2026 12:48:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 13:37:10.924833
Title: STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation
Title（参考訳）: STARRY:ロボットマニピュレーションのための時空間行動中心世界モデリング
Authors: Yuxuan Tian, Yurun Jin, Bin Yu, Yukun Shi, Hao Wu, Chi Harold Liu, Kai Chen, Cong Huang,
Abstract要約: STARRYは、空間的時間的予測と行動生成を整合させる世界モデル強化アクションジェネレーションポリシーである。 RoboTwin 2.0では、クリーンでランダムな設定で平均93.82% / 93.30%の成功を達成した。これらの結果は,ロボット操作の空間的・時間的要求に対する行動中心型時空間世界モデリングの有効性を示す。
参考スコア（独自算出の注目度）: 30.24537271257149
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Robotic manipulation requires reasoning about future spatial-temporal interactions and geometric constraints, yet existing Vision-Language-Action (VLA) policies often leave predictive representation weakly coupled with action execution, causing failures in tasks requiring precise spatial-temporal coordination. We propose STARRY, a world-model-enhanced action-generation policy that aligns spatial-temporal prediction and action generation by jointly denoising future spatial-temporal latents and actions through a unified diffusion process. To bridge 2D visual tokens and 3D metric control, STARRY introduces Geometry-Aware Selective Attention Modulation (GASAM), which converts predicted depth and end-effector geometry into token-aligned weights for selective action-attention modulation. On RoboTwin 2.0, STARRY achieves 93.82% / 93.30% average success under Clean and Randomized settings across 50 bimanual tasks. Real-world experiments show that STARRY improves average success from 42.5% to 70.8% compared with $π_{0.5}$. These results demonstrate the effectiveness of action-centric spatial-temporal world modeling for spatially and temporally demanding robotic manipulation.
Abstract（参考訳）: ロボット操作は将来の空間的時間的相互作用と幾何学的制約の推論を必要とするが、既存のビジョン・ランゲージ・アクション(VLA)ポリシーは、予測表現とアクションの実行が弱く結合し、正確な空間的時間的調整を必要とするタスクでは失敗する。本稿では,空間的時間的予測と行動生成を協調的に記述し,統合拡散過程を通じて行動と行動とを協調的に認知する,世界モデルによる行動生成政策であるSTARRYを提案する。 2Dビジュアルトークンと3Dメトリックコントロールをブリッジするために、STARRYはGeometry-Aware Selective Attention Modulation (GASAM)を導入した。 RoboTwin 2.0 では、STARRY は 93.82% / 93.30% の平均的な成功を、クリーンでランダムな設定で達成している。実世界の実験では、STARRYは平均的な成功を42.5%から70.8%に改善している。これらの結果は,ロボット操作の空間的・時間的要求に対する行動中心型時空間世界モデリングの有効性を示す。

関連論文リスト

AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps [7.710034405765985]
AIMは、明示的な空間的インターフェースを通じてこのギャップを橋渡しする意図認識の統一世界行動モデルである。事前訓練されたビデオ生成モデルに基づいて構築されたAIMは、共有変換器アーキテクチャ内の将来の観測と値マップを共同でモデル化する。 RoboTwin 2.0ベンチマークの実験では、AIMは平均94.0%の成功率に達し、以前の統合された世界行動ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2026-04-13T07:48:58Z)
Learning Smooth and Robust Space Robotic Manipulation of Dynamic Target via Inter-frame Correlation [12.529803316934176]
微小重力環境では、物体は通常自由浮遊であり、地球上で見られる支持や摩擦の制約が欠如している。本稿では、歴史的時間的情報とフレーム間相関機構を統合したデータ駆動型宇宙ロボット操作手法を提案する。
論文参考訳（メタデータ） (2026-03-29T06:27:30Z)
HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model [56.4392302336014]
本稿では,外部状態推定を伴わない多種多様なオブジェクトダイナミクス間のロバストな相互作用のためのフレームワークであるHAICを提案する。我々の重要な貢献は、主観的歴史のみから高次対象状態(速度、加速度)を推定するダイナミクス予測器である。ヒューマノイドロボットの実験では、HAICはアジャイルタスクで高い成功率を達成する。
論文参考訳（メタデータ） (2026-02-12T09:34:35Z)
Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical World Model [0.7284556903703034]
ディープアクティブ推論(Deep Active Inference)は、人間のゴール指向および探索的行動を説明するフレームワークである。本稿では,世界モデル,アクションモデル,抽象世界モデルから構成される新しい深層活動推論フレームワークを提案する。実世界のロボットを用いてオブジェクト操作タスクの枠組みを評価する。
論文参考訳（メタデータ） (2025-12-01T17:41:01Z)
Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。未知の物体や命令で彼らの能力を評価し改善することは重要な課題です世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文参考訳（メタデータ） (2025-10-11T09:13:10Z)
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文参考訳（メタデータ） (2025-08-25T02:01:09Z)
Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning [43.35947581429867]
視覚中心の階層型エンボディードモデルは、長距離ロボット制御に強い可能性を示している。既存の方法は空間認識能力に欠けており、複雑な環境下での行動可能な制御に視覚計画をブリッジする際の有効性を制限している。本研究では,空間モデルと推論を用いた空間認識型ロボット操作フレームワークである空間ポリシー(SP)を提案する。
論文参考訳（メタデータ） (2025-08-21T10:24:18Z)
OSCAR: Data-Driven Operational Space Control for Adaptive and Robust Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-10-02T01:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。