論文の概要: Visual Foresight for Robotic Stow: A Diffusion-Based World Model from Sparse Snapshots
- arxiv url: http://arxiv.org/abs/2602.13347v1
- Date: Thu, 12 Feb 2026 21:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.933609
- Title: Visual Foresight for Robotic Stow: A Diffusion-Based World Model from Sparse Snapshots
- Title(参考訳): ロボットスタウの視覚的展望:スパーススナップショットからの拡散に基づく世界モデル
- Authors: Lijun Zhang, Nikhil Chacko, Petter Nilsson, Ruinian Xu, Shantanu Thakar, Bai Lou, Harpreet Sawhney, Zhebin Zhang, Mudit Agrawal, Bhavana Chandrashekhar, Aaron Parness,
- Abstract要約: 本稿では、ビン状態をアイテム整列型インスタンスマスクとして表現するストーインテント条件付き世界モデルを提案する。
我々は遅延拡散変換器を用いて観測された文脈からポストストウ構成を予測する。
- 参考スコア(独自算出の注目度): 13.175596340667292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated warehouses execute millions of stow operations, where robots place objects into storage bins. For these systems it is valuable to anticipate how a bin will look from the current observations and the planned stow behavior before real execution. We propose FOREST, a stow-intent-conditioned world model that represents bin states as item-aligned instance masks and uses a latent diffusion transformer to predict the post-stow configuration from the observed context. Our evaluation shows that FOREST substantially improves the geometric agreement between predicted and true post-stow layouts compared with heuristic baselines. We further evaluate the predicted post-stow layouts in two downstream tasks, in which replacing the real post-stow masks with FOREST predictions causes only modest performance loss in load-quality assessment and multi-stow reasoning, indicating that our model can provide useful foresight signals for warehouse planning.
- Abstract(参考訳): 自動倉庫は何百万ものストー操作を実行し、ロボットはオブジェクトを保管箱に配置する。
これらのシステムにとって、実際の実行前に、ビンが現在の観測と計画されたストーの振る舞いからどのように見えるかを予測することは価値がある。
提案するFOESTは,bin状態をアイテム整列型インスタンスマスクとして表現し,遅延拡散変換器を用いて観測されたコンテキストからポストストウ構成を予測する。
評価の結果,FOESTは予測と真のポストストローレイアウトの幾何学的整合性を,ヒューリスティックベースラインと比較して大幅に改善することが示された。
さらに、2つの下流タスクにおける予測されたポストストウレイアウトの評価を行い、実際のポストストウマスクをFOEST予測に置き換えることで、負荷品質評価とマルチストウ推論において、わずかな性能損失しか生じないことを示す。
関連論文リスト
- Into the Unknown: Towards using Generative Models for Sampling Priors of Environment Uncertainty for Planning in Configuration Spaces [28.37021202108478]
事前は部分的な可観測性の下での計画には不可欠だが、実際は入手が困難である。
本稿では, 大規模事前学習モデルを用いて, ゼロショット方式で事前生成を行う確率論的パイプラインを提案する。
我々は、ロボットが観測されていない対象物にナビゲートする必要がある戸口を通して部分的に見える部屋のMatterport3Dベンチマークを構築した。
論文 参考訳(メタデータ) (2025-10-13T05:08:48Z) - Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control [51.14656121641822]
世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。
新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。
本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
論文 参考訳(メタデータ) (2025-06-19T19:41:29Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [31.995016095663544]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - LOPR: Latent Occupancy PRediction using Generative Models [28.49346874213506]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。