論文の概要: Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2511.07410v1
- Date: Mon, 10 Nov 2025 18:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.429951
- Title: Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective
- Title(参考訳): ロボット応用のための閉ループ記号プランナとしての視覚言語モデルの利用:制御理論の視点から
- Authors: Hao Wang, Sathwik Karnik, Bea Lim, Somil Bansal,
- Abstract要約: 大型言語モデル (LLMs) と視覚言語モデル (VLMs) はシンボル計画の具体化に広く用いられている。
制御理論の観点からロボット応用のための閉ループシンボルプランナとしてVLMを使用する方法について検討する。
- 参考スコア(独自算出の注目度): 9.074528675388004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Vision Language Models (VLMs) have been widely used for embodied symbolic planning. Yet, how to effectively use these models for closed-loop symbolic planning remains largely unexplored. Because they operate as black boxes, LLMs and VLMs can produce unpredictable or costly errors, making their use in high-level robotic planning especially challenging. In this work, we investigate how to use VLMs as closed-loop symbolic planners for robotic applications from a control-theoretic perspective. Concretely, we study how the control horizon and warm-starting impact the performance of VLM symbolic planners. We design and conduct controlled experiments to gain insights that are broadly applicable to utilizing VLMs as closed-loop symbolic planners, and we discuss recommendations that can help improve the performance of VLM symbolic planners.
- Abstract(参考訳): 大型言語モデル (LLMs) と視覚言語モデル (VLMs) はシンボル計画の具体化に広く用いられている。
しかし、これらのモデルをクローズドループのシンボリックプランニングに効果的に利用する方法はほとんど解明されていない。
ブラックボックスとして動作するため、LSMやVLMは予測不可能またはコストのかかるエラーを発生させる可能性があるため、高レベルのロボット計画での利用は特に困難である。
本研究では,制御理論の観点からロボット応用のための閉ループシンボルプランナとしてVLMを使用する方法について検討する。
具体的には,制御水平線と温暖化開始がVLM記号プランナの性能に与える影響について検討する。
我々は,VLMをクローズドループ・シンボリック・プランナーとして活用するための知見を得るために,制御された実験を設計・実施し,VLMシンボリック・プランナーの性能向上に役立つ推奨事項について議論する。
関連論文リスト
- ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models [8.715289208498053]
シンボル述語と視覚言語モデル(VLM)を用いたビジュアルプランニングのための最初のオープンソースベンチマークであるViPlanを紹介する。
我々は,複数のサイズのオープンソースVLMファミリを,選択されたクローズドモデルとともにベンチマークし,VLMを基盤としたシンボルプランニングと,モデルを直接使用してアクションを提案する。
正確な画像のグラウンド化が不可欠であるBlocksworldでは、直接VLM計画よりも優れているという象徴的な計画があるが、家庭用ロボティクスのタスクではその逆が当てはまる。
論文 参考訳(メタデータ) (2025-05-19T14:38:15Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning [9.31108717722043]
視覚言語モデル(VLM)はロボットのタスク計画問題に適用されている。
DKPROMPTは、オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の利用を促すVLMを自動化する。
論文 参考訳(メタデータ) (2024-06-25T15:49:47Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。