論文の概要: LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation
- arxiv url: http://arxiv.org/abs/2405.05363v1
- Date: Wed, 8 May 2024 18:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:52:18.625204
- Title: LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation
- Title(参考訳): LOC-ZSON:言語駆動型オブジェクト中心ゼロショットオブジェクト検索とナビゲーション
- Authors: Tianrui Guan, Yurou Yang, Harry Cheng, Muyuan Lin, Richard Kim, Rajasimman Madhivanan, Arnie Sen, Dinesh Manocha,
- Abstract要約: LOC-ZSONは、複雑なシーンにおけるオブジェクトナビゲーションタスクのための、言語駆動のオブジェクト中心の画像表現である。
視覚言語モデル(VLM)の微調整におけるオブジェクト中心の画像表現とそれに対応する損失を提案する。
提案手法をAstroロボットに実装し,実環境とシミュレーション環境の両方にデプロイし,ゼロショットオブジェクトナビゲーションを実現する。
- 参考スコア(独自算出の注目度): 41.34703238334362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present LOC-ZSON, a novel Language-driven Object-Centric image representation for object navigation task within complex scenes. We propose an object-centric image representation and corresponding losses for visual-language model (VLM) fine-tuning, which can handle complex object-level queries. In addition, we design a novel LLM-based augmentation and prompt templates for stability during training and zero-shot inference. We implement our method on Astro robot and deploy it in both simulated and real-world environments for zero-shot object navigation. We show that our proposed method can achieve an improvement of 1.38 - 13.38% in terms of text-to-image recall on different benchmark settings for the retrieval task. For object navigation, we show the benefit of our approach in simulation and real world, showing 5% and 16.67% improvement in terms of navigation success rate, respectively.
- Abstract(参考訳): 本稿では,複雑なシーンにおけるオブジェクトナビゲーションタスクのための言語駆動型オブジェクト中心画像表現であるLOC-ZSONを提案する。
複雑なオブジェクトレベルのクエリを処理できる視覚言語モデル(VLM)のためのオブジェクト中心の画像表現とそれに対応する損失を提案する。
さらに,新しいLCMベースの拡張を設計し,トレーニング中の安定性とゼロショット推論のためのテンプレートをプロンプトする。
提案手法をAstroロボットに実装し,実環境とシミュレーション環境の両方にデプロイし,ゼロショットオブジェクトナビゲーションを実現する。
提案手法は,検索タスクの異なるベンチマーク設定のテキスト・ツー・イメージ・リコールにおいて,1.38~13.38%の改善を実現することができることを示す。
オブジェクトナビゲーションでは、シミュレーションと実世界のアプローチの利点を示し、ナビゲーションの成功率に関してそれぞれ5%と16.67%の改善を示している。
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval [6.493562178111347]
オブジェクト認識型クエリ摂動に基づくクロスモーダル画像テキスト検索フレームワーク」を提案する。
提案手法では、既存のV&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整をすることなく、オブジェクト認識のクロスモーダルな画像テキスト検索が可能となる。
論文 参考訳(メタデータ) (2024-07-17T06:42:14Z) - Semantic Object-level Modeling for Robust Visual Camera Relocalization [14.998133272060695]
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
論文 参考訳(メタデータ) (2024-02-10T13:39:44Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and
Exploration [31.18818639097139]
本稿では、ゼロショットビジョンモデルの成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。
タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORのシミュレータで各ゼロショットモデルを評価する。
私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-03-20T00:52:45Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。