論文の概要: DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes
- arxiv url: http://arxiv.org/abs/2410.02730v3
- Date: Mon, 01 Sep 2025 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.174099
- Title: DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes
- Title(参考訳): DivScene: 多様な場面における大規模視覚言語モデルを用いたオープン語彙オブジェクトナビゲーションを目指して
- Authors: Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu,
- Abstract要約: まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。
私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。
我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
- 参考スコア(独自算出の注目度): 76.24687327731031
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved significant progress in tasks like visual question answering and document understanding. However, their potential to comprehend embodied environments and navigate within them remains underexplored. In this work, we first study the challenge of open-vocabulary object navigation by introducing DivScene, a large-scale dataset with 4,614 houses across 81 scene types and 5,707 kinds of target objects. Our dataset provides a much greater diversity of target objects and scene types than existing datasets, enabling a comprehensive task evaluation. We evaluated various methods with LVLMs and LLMs on our dataset and found that current models still fall short of open-vocab object navigation ability. Then, we fine-tuned LVLMs to predict the next action with CoT explanations. We observe that LVLM's navigation ability can be improved substantially with only BFS-generated shortest paths without any human supervision, surpassing GPT-4o by over 20% in success rates.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的質問応答や文書理解といったタスクにおいて大きな進歩を遂げている。
しかし、エンボディ環境を理解し、その内部をナビゲートする可能性はまだ未解明のままである。
本研究ではまず,81のシーンタイプと5,707種類のターゲットオブジェクトからなる大規模データセットDivSceneを導入することで,オープン語彙オブジェクトナビゲーションの課題について検討する。
我々のデータセットは、既存のデータセットよりもターゲットオブジェクトとシーンタイプをはるかに多様に提供し、包括的なタスク評価を可能にします。
我々は,LVLM と LLM の様々な手法をデータセット上で評価し,現在のモデルがまだオープンボキャブオブジェクトナビゲーション能力に欠けていることを発見した。
次に、LVLMを微調整し、CoT説明による次の動作を予測した。
GPT-4oを20%以上越えて,BFS生成した最短経路のみを用いて,LVLMのナビゲーション能力を大幅に向上させることができることを観察した。
関連論文リスト
- ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。