論文の概要: Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation
- arxiv url: http://arxiv.org/abs/2309.08138v2
- Date: Mon, 23 Oct 2023 16:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:28:50.880023
- Title: Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation
- Title(参考訳): オンデマンド駆動ナビゲーションのための要求条件付きオブジェクト属性空間の学習
- Authors: Hongcheng Wang, Andy Guan Hong Chen, Xiaoqi Li, Mingdong Wu, Hao Dong
- Abstract要約: 視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
- 参考スコア(独自算出の注目度): 5.106884746419666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Visual Object Navigation (VON) involves an agent's ability to
locate a particular object within a given scene. In order to successfully
accomplish the VON task, two essential conditions must be fulfilled:1) the user
must know the name of the desired object; and 2) the user-specified object must
actually be present within the scene. To meet these conditions, a simulator can
incorporate pre-defined object names and positions into the metadata of the
scene. However, in real-world scenarios, it is often challenging to ensure that
these conditions are always met. Human in an unfamiliar environment may not
know which objects are present in the scene, or they may mistakenly specify an
object that is not actually present. Nevertheless, despite these challenges,
human may still have a demand for an object, which could potentially be
fulfilled by other objects present within the scene in an equivalent manner.
Hence, we propose Demand-driven Navigation (DDN), which leverages the user's
demand as the task instruction and prompts the agent to find the object matches
the specified demand. DDN aims to relax the stringent conditions of VON by
focusing on fulfilling the user's demand rather than relying solely on
predefined object categories or names. We propose a method first acquire
textual attribute features of objects by extracting common knowledge from a
large language model. These textual attribute features are subsequently aligned
with visual attribute features using Contrastive Language-Image Pre-training
(CLIP). By incorporating the visual attribute features as prior knowledge, we
enhance the navigation process. Experiments on AI2Thor with the ProcThor
dataset demonstrate the visual attribute features improve the agent's
navigation performance and outperform the baseline methods commonly used in
VON.
- Abstract(参考訳): 視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
vonタスクを成功させるためには、2つの必須条件を満たさなければならない:1) ユーザが希望するオブジェクトの名前を知る必要がある。
2) ユーザ指定オブジェクトは実際にシーン内に存在しなければならない。
これらの条件を満たすために、シミュレータはシーンのメタデータに予め定義されたオブジェクト名と位置を組み込むことができる。
しかし、現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
馴染みのない環境の人間は、どのオブジェクトがシーンに存在するのかを知らないかもしれないし、実際に存在しないオブジェクトを誤って特定するかもしれない。
しかしながら、これらの課題にもかかわらず、人間は依然としてオブジェクトに対する要求があり、それは、シーン内に存在する他のオブジェクトと同等の方法で満たされる可能性がある。
そこで本研究では,ユーザの要求をタスク命令として活用し,その要求にマッチするオブジェクトを見つけるようエージェントに促す,要求駆動ナビゲーション(DDN)を提案する。
DDNは、事前に定義されたオブジェクトのカテゴリや名前にのみ依存するのではなく、ユーザの要求を満たすことに集中することで、VONの厳しい条件を緩和することを目的としている。
本稿では,大言語モデルから共通知識を抽出することにより,まずオブジェクトのテキスト属性特徴を取得する手法を提案する。
これらのテキスト属性機能は、Contrastive Language-Image Pre-training (CLIP)を使用して視覚的属性特徴と整列する。
視覚属性の特徴を事前知識として組み込むことで,ナビゲーションプロセスを強化する。
ProcThorデータセットによるAI2Thorの実験では、視覚特性の特徴がエージェントのナビゲーション性能を改善し、VONで一般的に使用されるベースラインメソッドよりも優れていた。
関連論文リスト
- Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments [170.43912741137655]
我々はReasoning Intention-Oriented Objects (RIO)と呼ばれる包括的なデータセットを構築する。
RIOは、様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されている。
オープン環境で意図指向オブジェクトを推論する既存モデルの能力を評価する。
論文 参考訳(メタデータ) (2023-10-26T10:15:21Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances [90.61897965658183]
画像ゴールによる視覚ナビゲーションの具体化問題(ImageNav)について考察する。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較を難しくする標準化されたタスク定義を持っていない。
これらの制限に対処するために、インスタンス固有のImageNavタスク(ImageNav)を提示します。
論文 参考訳(メタデータ) (2022-11-29T02:29:35Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。