論文の概要: Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation
- arxiv url: http://arxiv.org/abs/2605.11144v1
- Date: Mon, 11 May 2026 18:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.368848
- Title: Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation
- Title(参考訳): 言語ガイドによるピック・アンド・プレイス操作における予測3次元表現のための予測型ガウス分割法
- Authors: Kaixin Jia, Jiacheng Xu,
- Abstract要約: Forecast-aware Gaussian Splatting (Forecast-GS)は,言語条件のロボット操作のための予測3D表現フレームワークである。
我々は、Cutter-to-Box、Apple-to-Bowl、Spnge-to-Trayなどの実世界のピック・アンド・プレイス操作タスクでForecast-GSを検証する。
自動候補選択を行うForecast-GSは、3つのタスクでそれぞれ21/25,23/25,16/25の成功率を達成する。
- 参考スコア(独自算出の注目度): 4.711302998453154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Forecast-aware Gaussian Splatting (Forecast-GS), a predictive 3D representation framework for language-conditioned robotic manipulation. While recent manipulation systems have made progress by grounding language instructions into robot affordances, value maps, or relational keypoint constraints, they usually reason over the current scene and do not explicitly model the task-completed state. This limitation is critical when success depends on satisfying spatial and semantic goals under partial observations, where the robot must evaluate whether a candidate action leads to a feasible task-consistent outcome. We validate Forecast-GS on real-world pick-and-place manipulation tasks, including Cutter-to-Box, Apple-to-Bowl, and Sponge-to-Tray. For each task, we conduct 25 real-world trials under varied initial object configurations using the same robot platform and sensing setup. Forecast-GS with automatic candidate selection achieves success rates of 21/25, 23/25, and 16/25 on the three tasks, respectively, outperforming the ReKep baseline, which achieves 15/25, 19/25, and 10/25. A diagnostic human-assisted setting further improves success rates to 23/25, 24/25, and 19/25, suggesting that candidate generation is effective while automatic ranking remains imperfect. These results suggest that explicitly forecasting task-completed 3D states enables more reliable action evaluation, while the gap between automatic and human-assisted selection indicates that robust final-state ranking remains an important challenge for fully autonomous manipulation. Overall, Forecast-GS provides an interpretable bridge between language understanding, 3D perception, and robotic manipulation planning.
- Abstract(参考訳): Forecast-aware Gaussian Splatting (Forecast-GS)は,言語条件のロボット操作のための予測3D表現フレームワークである。
最近の操作システムは、ロボットの余裕、価値マップ、リレーショナルキーポイントの制約に言語命令を接地することで進歩してきたが、それらは通常、現在のシーンを推論し、タスク完備した状態を明示的にモデル化しない。
この制限は、部分的な観察の下で、成功が空間的および意味的な目標を満たすことに依存している場合、ロボットは、候補となる動作が実行可能なタスク一貫性のある結果につながるかどうかを評価する必要がある。
我々は、Cutter-to-Box、Apple-to-Bowl、Spnge-to-Trayなどの実世界のピック・アンド・プレイス操作タスクについて、Forecast-GSを検証する。
各タスクに対して、同じロボットプラットフォームとセンシング設定を用いて、さまざまな初期オブジェクト構成の下で、25の現実世界での試行を行う。
自動候補選択のForecast-GSは、それぞれ15/25,19/25,10/25のReKepベースラインを上回る21/25,23/25,16/25の成功率を達成する。
診断支援設定により、成功率が23/25、24/25、19/25に向上し、自動ランキングが不完全である間に、候補生成が効果的であることを示唆する。
これらの結果は,タスク完備した3D状態を明示的に予測することで,より信頼性の高い行動評価が可能になることを示唆している。
全体として、Forecast-GSは言語理解、3D知覚、ロボット操作計画の間の解釈可能なブリッジを提供する。
関連論文リスト
- Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - UniFField: A Generalizable Unified Neural Feature Field for Visual, Semantic, and Spatial Uncertainties in Any Scene [11.224584333257338]
視覚的,意味的,幾何学的特徴を1つの一般化可能な表現で組み合わせた,統一的不確実性を考慮したニューラル特徴場UniFFieldを提案する。
シーン再構成と意味的特徴予測におけるモデル予測誤差を正確に記述するために,不確実性推定を評価した。
論文 参考訳(メタデータ) (2025-10-08T08:30:26Z) - Probabilistic Human Intent Prediction for Mobile Manipulation: An Evaluation with Human-Inspired Constraints [2.2893865000399938]
人間の意図の正確な推論は、人間とロボットの衝突を引き起こすことなく、人間とロボットの協調を可能にする。
ロボットが人間の操作者の意図を推定できる確率的フレームワークであるGUIDERを提案する。
アイザック・シムの25の試験(5人の被験者x5のタスク変種)においてGUIDERを評価し,ナビゲーション用と操作用の2つのベースラインと比較した。
論文 参考訳(メタデータ) (2025-07-14T10:21:27Z) - AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents [105.13169239919272]
プリミティブレベルのロボット操作データセットであるRH20T-Pを提案する。
実際のシナリオで67種類の操作タスクをカバーする約38Kのビデオクリップが含まれている。
我々は、計画実行CGAパラダイムを標準化し、RH20T-PにRA-Pと呼ばれる典型的なベースラインを実装します。
論文 参考訳(メタデータ) (2024-03-28T17:42:54Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Spatial-Language Attention Policies for Efficient Robot Learning [32.215861214516735]
本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。
SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。
一つのモデルで8つのタスクにまたがる実世界の80%の成功率を示し、未確認な乱雑なオブジェクト構成を導入した場合、47.5%の成功率を示す。
論文 参考訳(メタデータ) (2023-04-21T20:02:49Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。