論文の概要: 3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS
- arxiv url: http://arxiv.org/abs/2604.11302v1
- Date: Mon, 13 Apr 2026 11:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.486548
- Title: 3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS
- Title(参考訳): World-Model-based MCTSによる永続型ロボットシーン記憶のための3次元アンコール型ルックアヘッド計画
- Authors: Bronislav Sidik, Dror Mizrahi,
- Abstract要約: 3D-ALPは、ロボット操作のためのシステム2推論エンジンである。
モンテカルロ木探索(MCTS)と3D一貫性のある世界モデルをロールアウトオラクルとして組み合わせている。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present 3D-Anchored Lookahead Planning (3D-ALP), a System 2 reasoning engine for robotic manipulation that combines Monte Carlo Tree Search (MCTS) with a 3D-consistent world model as the rollout oracle. Unlike reactive policies that evaluate actions from the current camera frame only, 3D-ALP maintains a persistent camera-to-world (c2w) anchor that survives occlusion, enabling accurate replanning to object positions that are no longer directly observable. On a 5-step sequential reach task requiring spatial memory (Experiment E3), 3D-ALP achieves 0.650 0.109 success rate on memory-required steps versus 0.006 0.008 for a greedy reactive baseline (Δ=+0.645), while step 5 success reaches 0.822 against 0.000 for greedy. An ablation study (30 episodes, 3 seeds) isolates tree search spatial memory as the primary driver (+0.533, 82% of gain) with additional benefit from deeper lookahead (+0.111, 17%). We also identify and resolve four structural failure modes in applying UCT-MCTS (Upper Confidence Bounds applied to Trees [10]) to continuous robotic manipulation.
- Abstract(参考訳): 本稿では,モンテカルロ木探索(MCTS)と3D一貫性の世界モデルを組み合わせたロボット操作のためのシステム2推論エンジンである3D-ALPを提案する。
現行のカメラフレームからのアクションのみを評価するリアクティブポリシーとは異なり、3D-ALPは、隠蔽に耐える永続的なカメラ・トゥ・ワールド(c2w)アンカーを維持しており、もはや観察不可能なオブジェクト位置への正確なリプランを可能にする。
空間記憶を必要とする5ステップ連続到達タスク(実験E3)では、3D-ALPは、欲求応答ベースライン(Δ=+0.645)で0.006 0.008に対して、メモリ要求ステップで0.650 0.109成功率を達成する。
アブレーション調査(30話、3種)では、木探索空間記憶を主ドライバ(+0.533, 82%のゲイン)として分離し、さらに深いルックアヘッド(+0.111, 17%)の恩恵を受けている。
また,UCT-MCTS (Upper Confidence Bounds applied to Trees [10]) を連続的なロボット操作に適用する際の4つの構造的故障モードを特定し,解決する。
関連論文リスト
- HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling [0.0]
HCLSMは、オブジェクト中心分解、空間放送復号化、階層的時間力学の3つの原理で機能する。
システムは51モジュールにまたがる8,478行のPythonにまたがっており、171のユニットテストがある。
論文 参考訳(メタデータ) (2026-03-31T00:11:29Z) - Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics [0.0]
3Dプリンティングガラスに装着した1台の自家中心型RGB-Dカメラから、オフラインのハンドシャドイングとマッピングパイプラインを提示する。
パイプラインはMediaPipe Handsを使用して、手当たり21のランドマークを検出する。
グリップコントローラは、親指の指形状を4段階のフォールバック階層で把握するようにマッピングする。
論文 参考訳(メタデータ) (2026-03-11T23:53:28Z) - Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements [0.0]
モノクル6次元ポーズ推定のための新しい一段階のエンドツーエンドフレームワークであるYolo-Key-6Dを提案する。
提案手法は,オブジェクトの3次元境界ボックス角の2次元投影を補強する補助ヘッドを統合することで,YOLOベースのアーキテクチャを強化する。
YOLO-Key-6D は ADD(-S) 0.1d でそれぞれ96.24% と69.41% の競争精度を達成している。
論文 参考訳(メタデータ) (2026-03-04T09:31:07Z) - Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。