論文の概要: Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2502.16707v1
- Date: Sun, 23 Feb 2025 20:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:06.374855
- Title: Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
- Title(参考訳): 反射計画:多段長軸ロボットマニピュレーションのための視覚言語モデル
- Authors: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo,
- Abstract要約: 複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 90.00687889213991
- License:
- Abstract: Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs' physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a "reflection" mechanism - it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.
- Abstract(参考訳): 複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力、物理的世界を推論する能力、適切な運動スキルを反応的に選択する必要がある。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
しかしながら、VLMはロボット操作に必要な複雑な物理学の微妙な理解と、エラー複合問題に対処するための長い地平線を推論する能力の両方を欠いている。
本稿では,マルチステージ操作タスクにおけるVLMの物理推論能力を向上させる新しいテスト時間計算フレームワークを提案する。
我々のアプローチは、予測されたVLMを「反射」機構で反復的に改善し、将来の世界の状態を想像するために生成モデルを使用し、これらの予測を利用して行動選択を誘導し、潜在的な準最適性を批判的に反映し、その推論を洗練させる。
実験の結果,本手法はモンテカルロ木探索 (MCTS) などのポストトレーニング手法と同様に,最先端の商用VLMよりも優れていた。
ビデオはhttps://reflect-vlm.github.io.comで公開されている。
関連論文リスト
- From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment [11.799979691988902]
FOREWARNは、Vision Language Modelsのランタイムポリシーステアリングの可能性を解き放つ新しいフレームワークである。
予見のために、我々は潜在世界モデルを利用して、多様な低レベルアクションプランが与えられた将来の潜在国家を想像する。
例えば、VLMをこれらの予測潜在状態と整合させて、そのネイティブ表現におけるアクションの結果を推論する。
論文 参考訳(メタデータ) (2025-02-03T21:11:02Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。
以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。
本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文 参考訳(メタデータ) (2024-03-15T08:51:15Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。