論文の概要: AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making
- arxiv url: http://arxiv.org/abs/2506.12374v2
- Date: Tue, 24 Jun 2025 10:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:09.104238
- Title: AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making
- Title(参考訳): アンチグラウンド:意思決定のためのロボットアクションをVLM表現空間にリフティングする
- Authors: Wenbo Li, Shiyi Wang, Yiteng Chen, Huiping Zhuang, Qingyao Wu,
- Abstract要約: AntiGroundingは、命令のグラウンディングプロセスをリバースする新しいフレームワークである。
候補アクションをVLM表現空間に直接持ち上げる。
複数のビューからトラジェクトリを描画し、命令ベースの意思決定に構造化された視覚的質問応答を使用する。
- 参考スコア(独自算出の注目度): 35.83717913117858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) encode knowledge and reasoning capabilities for robotic manipulation within high-dimensional representation spaces. However, current approaches often project them into compressed intermediate representations, discarding important task-specific information such as fine-grained spatial or semantic details. To address this, we propose AntiGrounding, a new framework that reverses the instruction grounding process. It lifts candidate actions directly into the VLM representation space, renders trajectories from multiple views, and uses structured visual question answering for instruction-based decision making. This enables zero-shot synthesis of optimal closed-loop robot trajectories for new tasks. We also propose an offline policy refinement module that leverages past experience to enhance long-term performance. Experiments in both simulation and real-world environments show that our method outperforms baselines across diverse robotic manipulation tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は、高次元表現空間におけるロボット操作の知識と推論能力を符号化する。
しかし、現在のアプローチはしばしばそれらを圧縮された中間表現に投影し、きめ細かい空間や意味的な詳細といった重要なタスク固有の情報を捨てる。
これを解決するために,命令基底処理を反転させる新しいフレームワークであるAntiGroundingを提案する。
候補アクションをVLM表現空間に直接持ち上げ、複数のビューからの軌跡を描画し、命令ベースの意思決定に構造化された視覚的質問応答を使用する。
これにより、新しいタスクのための最適なクローズドループロボット軌道のゼロショット合成が可能になる。
また、過去の経験を活用して長期的パフォーマンスを向上させるオフラインポリシー改善モジュールを提案する。
シミュレーションと実環境の両方の実験により、我々の手法は多様なロボット操作タスクのベースラインを上回っていることが示された。
関連論文リスト
- SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。