論文の概要: Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators
- arxiv url: http://arxiv.org/abs/2504.03245v1
- Date: Fri, 04 Apr 2025 07:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:33.265952
- Title: Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators
- Title(参考訳): 信じているものを見る - 不確実性推定器としての基礎モデルによるスペースプランニング
- Authors: Linfeng Zhao, Willie McClinton, Aidan Curtis, Nishanth Kumar, Tom Silver, Leslie Pack Kaelbling, Lawson L. S. Wong,
- Abstract要約: オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。
これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。
本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.28879194786174
- License:
- Abstract: Generalizable robotic mobile manipulation in open-world environments poses significant challenges due to long horizons, complex goals, and partial observability. A promising approach to address these challenges involves planning with a library of parameterized skills, where a task planner sequences these skills to achieve goals specified in structured languages, such as logical expressions over symbolic facts. While vision-language models (VLMs) can be used to ground these expressions, they often assume full observability, leading to suboptimal behavior when the agent lacks sufficient information to evaluate facts with certainty. This paper introduces a novel framework that leverages VLMs as a perception module to estimate uncertainty and facilitate symbolic grounding. Our approach constructs a symbolic belief representation and uses a belief-space planner to generate uncertainty-aware plans that incorporate strategic information gathering. This enables the agent to effectively reason about partial observability and property uncertainty. We demonstrate our system on a range of challenging real-world tasks that require reasoning in partially observable environments. Simulated evaluations show that our approach outperforms both vanilla VLM-based end-to-end planning or VLM-based state estimation baselines by planning for and executing strategic information gathering. This work highlights the potential of VLMs to construct belief-space symbolic scene representations, enabling downstream tasks such as uncertainty-aware planning.
- Abstract(参考訳): オープンワールド環境における汎用的なロボットモバイル操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。
これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、象徴的な事実に対する論理的表現のような構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。
視覚言語モデル(VLM)はこれらの表現を基礎にすることができるが、しばしば完全な可観測性を仮定し、エージェントが確実性のある事実を評価するのに十分な情報を持っていない場合、最適な振る舞いをもたらす。
本稿では,VLMを認識モジュールとして活用し,不確実性を推定し,記号的接地を容易にする新しいフレームワークを提案する。
提案手法は, 象徴的信念表現を構築し, 戦略情報収集を取り入れた不確実性を考慮した計画を生成するために, 信念空間プランナーを用いる。
これにより、エージェントは部分的な可観測性と特性の不確実性について効果的に推論できる。
我々は,部分的に観測可能な環境下での推論を必要とする,現実の課題に対して,我々のシステムを実証する。
シミュレーション評価により,本手法は,戦略情報収集の計画と実行により,VLMに基づくエンド・ツー・エンド計画とVLMに基づく状態推定ベースラインの両方に優れることが示された。
この研究は、信念空間の象徴的なシーン表現を構築するためのVLMの可能性を強調し、不確実性を考慮した計画のような下流のタスクを可能にする。
関連論文リスト
- Probabilistic Mission Design in Neuro-Symbolic Systems [19.501311018760177]
Probabilistic Mission Design (ProMis)は、地理空間と感覚データを宣言型ハイブリッド確率論理プログラム(HPLP)に結びつけるシステムアーキテクチャである。
ProMisは確率的ミッションランドスケープ(Probabilistic Mission Landscapes, PML)を生成する。
本稿では,Large Language Models(LLM)やTransformerベースの視覚モデルなど,強力な機械学習モデルとの統合について述べる。
論文 参考訳(メタデータ) (2024-12-25T11:04:00Z) - Evaluating Vision-Language Models as Evaluators in Path Planning [13.391755396500155]
大規模言語モデル(LLM)は、エンド・ツー・エンド・プランニングにおいて限定的な有効性を持つことが示されている。
本稿では,複雑な経路計画シナリオにおける計画評価器としてVLMを評価する新しいベンチマークであるPathEvalを紹介する。
分析の結果,これらのモデルがベンチマークにおいて重大な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-27T19:32:03Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - On Grounded Planning for Embodied Tasks with Language Models [30.217305215259277]
言語モデル(LM)は、物理世界の常識的知識を持つ能力を示した。
LMが具体化されたタスクに対して、基礎的で実行可能な計画を生成する能力を持っているかどうかは、まだ不明である。
LMには視覚と物理的な環境からのフィードバックを通じて環境を知覚する能力がないため、これは難しい課題である。
論文 参考訳(メタデータ) (2022-08-29T16:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。