論文の概要: LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments
- arxiv url: http://arxiv.org/abs/2603.04705v1
- Date: Thu, 05 Mar 2026 01:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.920543
- Title: LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments
- Title(参考訳): LEGS-POMDP:部分観測可能な環境における言語とジェスチャーによるオブジェクト探索
- Authors: Ivy Xiao He, Stefanie Tellex, Jason Xinyu Liu,
- Abstract要約: 部分観測可能環境(LEGS-POMDP)におけるLanguagEとgesture-Guided Object Search
本稿では,LanguagE と Gesture-Guided Object Search in partially Observable Environments (LEGS-POMDP)を紹介した。
シミュレーションでは、マルチモーダル融合は単調なベースラインを著しく上回り、挑戦的な環境や対象カテゴリーで平均89%の成功率を達成する。
- 参考スコア(独自算出の注目度): 7.458277072199384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To assist humans in open-world environments, robots must interpret ambiguous instructions to locate desired objects. Foundation model-based approaches excel at multimodal grounding, but they lack a principled mechanism for modeling uncertainty in long-horizon tasks. In contrast, Partially Observable Markov Decision Processes (POMDPs) provide a systematic framework for planning under uncertainty but are often limited in supported modalities and rely on restrictive environment assumptions. We introduce LanguagE and Gesture-Guided Object Search in Partially Observable Environments (LEGS-POMDP), a modular POMDP system that integrates language, gesture, and visual observations for open-world object search. Unlike prior work, LEGS-POMDP explicitly models two sources of partial observability: uncertainty over the target object's identity and its spatial location. In simulation, multimodal fusion significantly outperforms unimodal baselines, achieving an average success rate of 89\% across challenging environments and object categories. Finally, we demonstrate the full system on a quadruped mobile manipulator, where real-world experiments qualitatively validate robust multimodal perception and uncertainty reduction under ambiguous instructions.
- Abstract(参考訳): オープンワールド環境で人間を助けるには、ロボットは望ましい物体を見つけるためのあいまいな指示を解釈しなければならない。
基礎モデルに基づくアプローチはマルチモーダルグラウンドにおいて優れているが、長距離タスクにおける不確実性をモデル化するための原則的なメカニズムが欠如している。
対照的に、部分観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下で計画するための体系的な枠組みを提供するが、しばしばサポートされたモダリティに制限され、制約のある環境仮定に依存する。
本稿では,LanguagE と Gesture-Guided Object Search in partially Observable Environments (LEGS-POMDP)を紹介した。
以前の研究とは異なり、LEGS-POMDPは対象物体の同一性とその空間的位置に対する不確実性という2つの部分的観測可能性の源を明示的にモデル化した。
シミュレーションでは、マルチモーダル融合は単調なベースラインを著しく上回り、挑戦的な環境や対象カテゴリーで平均89.%の成功率を達成する。
最後に、実世界の実験で曖昧な指示の下で頑健なマルチモーダル認識と不確かさの低減を質的に検証する四重組移動マニピュレータの完全なシステムを実証する。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。