論文の概要: MLLM-Search: A Zero-Shot Approach to Finding People using Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.00103v1
- Date: Wed, 27 Nov 2024 21:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:56.281887
- Title: MLLM-Search: A Zero-Shot Approach to Finding People using Multimodal Large Language Models
- Title(参考訳): MLLM-Search: マルチモーダル大言語モデルを用いた人物発見のためのゼロショットアプローチ
- Authors: Angus Fung, Aaron Hao Tan, Haitong Wang, Beno Benhabib, Goldie Nejat,
- Abstract要約: 移動ロボットのための新しいゼロショット人探索アーキテクチャであるMLLM-Searchを提案する。
本研究では,環境の空間的理解をロボットに提供するための視覚的プロンプト手法を提案する。
建物の複数部屋のフロアで移動ロボットを実験したところ、MLLM-Searchは、新しい見えない環境の人を見つけるために一般化できることが判明した。
- 参考スコア(独自算出の注目度): 5.28115111932163
- License:
- Abstract: Robotic search of people in human-centered environments, including healthcare settings, is challenging as autonomous robots need to locate people without complete or any prior knowledge of their schedules, plans or locations. Furthermore, robots need to be able to adapt to real-time events that can influence a person's plan in an environment. In this paper, we present MLLM-Search, a novel zero-shot person search architecture that leverages multimodal large language models (MLLM) to address the mobile robot problem of searching for a person under event-driven scenarios with varying user schedules. Our approach introduces a novel visual prompting method to provide robots with spatial understanding of the environment by generating a spatially grounded waypoint map, representing navigable waypoints by a topological graph and regions by semantic labels. This is incorporated into a MLLM with a region planner that selects the next search region based on the semantic relevance to the search scenario, and a waypoint planner which generates a search path by considering the semantically relevant objects and the local spatial context through our unique spatial chain-of-thought prompting approach. Extensive 3D photorealistic experiments were conducted to validate the performance of MLLM-Search in searching for a person with a changing schedule in different environments. An ablation study was also conducted to validate the main design choices of MLLM-Search. Furthermore, a comparison study with state-of-the art search methods demonstrated that MLLM-Search outperforms existing methods with respect to search efficiency. Real-world experiments with a mobile robot in a multi-room floor of a building showed that MLLM-Search was able to generalize to finding a person in a new unseen environment.
- Abstract(参考訳): 医療設定を含む、人間中心の環境にいる人々のロボット検索は、自律的なロボットが、スケジュールや計画、場所に関する事前の知識なしに人々を見つける必要があるため、困難である。
さらに、ロボットは、環境における人の計画に影響を及ぼすようなリアルタイムイベントに適応できる必要がある。
本稿では,マルチモーダル大言語モデル(MLLM)を利用したゼロショット人検索アーキテクチャであるMLLM-Searchを提案する。
提案手法では,空間的に接地された経路点マップを生成し,トポロジカルグラフとセマンティックラベルを用いた領域でナビゲート可能な経路点を表現し,環境の空間的理解をロボットに提供する新しい視覚的プロンプト手法を提案する。
これは、探索シナリオに対する意味的関連性に基づいて次の探索領域を選択する領域プランナと、我々の独自の空間チェーン・オブ・プルーピングアプローチを通じて、意味的関連オブジェクトと局所空間コンテキストを考慮し、探索パスを生成するウェイポイントプランナとを備えたMLLMに組み込まれる。
MLLM-Searchは, 異なる環境下で変化した人物の探索において, MLLM-Searchの性能を評価するために, 広範囲な3次元フォトリアリスティック実験を行った。
MLLM-Searchの主設計選択を検証するためのアブレーション試験も行った。
さらに,最先端の検索手法との比較研究により,MLLM-Searchは検索効率において既存の手法よりも優れていることを示した。
ビルのマルチルームフロアにおける移動ロボットを用いた実世界実験により、MLLM-Searchは、新しい目に見えない環境での人物発見に一般化できることが判明した。
関連論文リスト
- Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach [47.373245682678515]
本研究は、視点変化の課題を克服するために、アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
その結果,既存の手法と比較して,データ駆動方式の方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-04T08:18:30Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Generalized Object Search [0.9137554315375919]
この論文は、不確実な3次元環境における多目的探索のための方法とシステムを開発する。
ロボットに依存しない,環境に依存しない3次元物体探索システムを構築した。
私はBoston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイしました。
論文 参考訳(メタデータ) (2023-01-24T16:41:36Z) - Active Visual Search in the Wild [12.354788629408933]
本稿では,フリーフォーム言語を用いてターゲットコマンドを入力できるシステムを提案する。
私たちはこのシステムをActive Visual Search in the Wild (AVSW)と呼んでいる。
AVSWは、静的なランドマークで表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出し、検索する計画である。
論文 参考訳(メタデータ) (2022-09-19T07:18:46Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。