論文の概要: WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.07313v1
- Date: Wed, 08 Oct 2025 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.690039
- Title: WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
- Title(参考訳): WristWorld:ロボットマニピュレーションのための4次元世界モデルによるWrist-Viewの生成
- Authors: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang,
- Abstract要約: We propose WristWorld, the first 4D world model that generated wrist-view video only from anchor view。
i) VGGTを拡張し、空間整合性(SPC)を組み込んだリコンストラクション。
Droid、Calvin、Franka Pandaの実験は、空間整合性に優れた最先端のビデオ生成を実証している。
- 参考スコア(独自算出の注目度): 38.00519585877807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.
- Abstract(参考訳): VLAモデルでは、操作性能を直接向上する細粒度のハンドオブジェクト相互作用を捉えるため、リストビューの観察が不可欠である。
しかし、大規模なデータセットはそのような記録をほとんど含まないため、豊富なアンカービューと少ない手首ビューの間にかなりのギャップが生じる。
既存の世界モデルは、手首ビューのファーストフレームを必要とするため、このギャップを埋めることができないため、アンカービューだけで手首ビューのビデオを生成することができない。
このギャップのなかで、VGGTのような最近の視覚幾何学モデルは、極端な視点シフトに対処できるような幾何学的および横断的な先行性を持つ。
これらの知見にインスパイアされたWristWorldは、アンカービューのみから手首ビュービデオを生成する最初の4Dワールドモデルである。
WristWorldは2つの段階に分かれている。
(i)VGGTを拡張して空間投影整合性(SPC)ロスを取り入れた再構成により、幾何学的に一貫した手首ビューポーズと4D点雲を推定する。
二 ビデオ生成モデルを用いて、再構成された視点から時間的コヒーレントな手首映像を合成する。
Droid、Calvin、Franka Pandaの実験では、空間整合性に優れ、VLA性能を改善し、Calvin上の平均タスク完了期間を3.81%引き上げ、アンカー・ブラスト・ビューギャップの42.4%を閉じた。
関連論文リスト
- S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - Owl-1: Omni World Model for Consistent Long Video Generation [75.51378346789626]
Omni World ModeL (Owl-1) を提案する。
Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:01Z) - FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。
2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。
本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文 参考訳(メタデータ) (2024-12-03T18:58:19Z) - Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.41337525728398]
EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。