論文の概要: VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis
- arxiv url: http://arxiv.org/abs/2604.21914v1
- Date: Thu, 23 Apr 2026 17:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.815228
- Title: VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis
- Title(参考訳): VistaBot:時空間認識型ビュー合成によるビューロバストロボットの操作
- Authors: Songen Gu, Yuhang Zheng, Weize Li, Yupeng Zheng, Yating Feng, Xiang Li, Yilun Chen, Pengfei Li, Wenchao Ding,
- Abstract要約: VistaBotは、フィードフォワード幾何学モデルとビデオ拡散モデルを統合して、ビューロバストなクローズドループ操作を実現する新しいフレームワークである。
提案手法は, 4次元幾何推定, ビュー合成潜時抽出, 潜時動作学習の3つの要素から構成される。
- 参考スコア(独自算出の注目度): 20.541240169111344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, end-to-end robotic manipulation models have gained significant attention for their generalizability and scalability. However, they often suffer from limited robustness to camera viewpoint changes when training with a fixed camera. In this paper, we propose VistaBot, a novel framework that integrates feed-forward geometric models with video diffusion models to achieve view-robust closed-loop manipulation without requiring camera calibration at test time. Our approach consists of three key components: 4D geometry estimation, view synthesis latent extraction, and latent action learning. VistaBot is integrated into both action-chunking (ACT) and diffusion-based ($π_0$) policies and evaluated across simulation and real-world tasks. We further introduce the View Generalization Score (VGS) as a new metric for comprehensive evaluation of cross-view generalization. Results show that VistaBot improves VGS by 2.79$\times$ and 2.63$\times$ over ACT and $π_0$, respectively, while also achieving high-quality novel view synthesis. Our contributions include a geometry-aware synthesis model, a latent action planner, a new benchmark metric, and extensive validation across diverse environments. The code and models will be made publicly available.
- Abstract(参考訳): 近年、エンド・ツー・エンドのロボット操作モデルは、その一般化性とスケーラビリティに大きな注目を集めている。
しかし、固定カメラでのトレーニングでは、カメラ視点の変化に対する頑丈さが制限されることが多い。
本稿では,映像拡散モデルとフィードフォワード幾何モデルを統合する新しいフレームワークであるVistaBotを提案する。
提案手法は, 4次元幾何推定, ビュー合成潜時抽出, 潜時動作学習の3つの要素から構成される。
VistaBotはアクションチャンキング(ACT)と拡散ベースの(π_0$)ポリシーの両方に統合され、シミュレーションや実世界のタスクで評価される。
さらに、ビュー一般化スコア(VGS)を、クロスビュー一般化の包括的評価のための新しい指標として紹介する。
その結果、VistaBot は VGS を 2.79$\times$ と 2.63$\times$ over ACT と $π_0$ で改善し、高品質のノベルビュー合成も達成した。
私たちのコントリビューションには、幾何学的認識合成モデル、潜在アクションプランナー、新しいベンチマークメトリック、多様な環境における広範な検証などが含まれています。
コードとモデルは公開されます。
関連論文リスト
- OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。