論文の概要: DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2402.19007v1
- Date: Thu, 29 Feb 2024 10:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:26:29.027318
- Title: DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in
Dynamic Environments
- Title(参考訳): doze: 動的環境におけるオープンボキャブラリーゼロショットオブジェクトナビゲーションのためのデータセット
- Authors: Ji Ma, Hongming Dai, Yao Mu, Pengying Wu, Hao Wang, Xiaowei Chi, Yang
Fei, Shanghang Zhang, Chang Liu
- Abstract要約: Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。
ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。
オープンボキャブラリーゼロショットオブジェクトナビゲーション(DOZE)のためのデータセットを提案する。
- 参考スコア(独自算出の注目度): 29.29456394631698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Object Navigation (ZSON) requires agents to autonomously locate and
approach unseen objects in unfamiliar environments and has emerged as a
particularly challenging task within the domain of Embodied AI. Existing
datasets for developing ZSON algorithms lack consideration of dynamic
obstacles, object attribute diversity, and scene texts, thus exhibiting
noticeable discrepancy from real-world situations. To address these issues, we
propose a Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic
Environments (DOZE) that comprises ten high-fidelity 3D scenes with over 18k
tasks, aiming to mimic complex, dynamic real-world scenarios. Specifically,
DOZE scenes feature multiple moving humanoid obstacles, a wide array of
open-vocabulary objects, diverse distinct-attribute objects, and valuable
textual hints. Besides, different from existing datasets that only provide
collision checking between the agent and static obstacles, we enhance DOZE by
integrating capabilities for detecting collisions between the agent and moving
obstacles. This novel functionality enables evaluation of the agents' collision
avoidance abilities in dynamic environments. We test four representative ZSON
methods on DOZE, revealing substantial room for improvement in existing
approaches concerning navigation efficiency, safety, and object recognition
accuracy. Our dataset could be found at https://DOZE-Dataset.github.io/.
- Abstract(参考訳): ゼロショットオブジェクトナビゲーション(zson, zero-shot object navigation, ゼロショットオブジェクトナビゲーション)は、エージェントが未知の環境で未発見のオブジェクトを自律的に発見し、アプローチする必要がある。
zsonアルゴリズムを開発するための既存のデータセットは、動的障害、オブジェクト属性の多様性、シーンテキストを考慮せず、実世界の状況から明らかな不一致を示す。
これらの課題に対処するために,複雑な動的現実のシナリオを模倣することを目的とした,10以上の高忠実度3Dシーンからなるオープンボキャブラリゼロショットオブジェクトナビゲーション(DOZE)のデータセットを提案する。
特にDOZEシーンは、複数の動くヒューマノイド障害物、幅広いオープン語彙オブジェクト、多様な異なる属性オブジェクト、貴重なテキストヒントを特徴としている。
さらに,エージェントと静的障害物の衝突チェックのみを提供する既存のデータセットとは異なり,エージェントと移動障害物の衝突を検出する機能を統合することで,DOZEを強化する。
この新機能により、動的環境におけるエージェントの衝突回避能力の評価が可能となる。
4つの代表的なzson法をdoze上でテストし,ナビゲーション効率,安全性,オブジェクト認識精度に関する既存手法の改善の余地を明らかにした。
データセットはhttps://DOZE-Dataset.github.io/で確認できます。
関連論文リスト
- Moving Object Segmentation in Point Cloud Data using Hidden Markov Models [0.0]
我々は,移動物体を点クラウドデータにセグメント化するための頑健な学習自由アプローチを提案する。
提案手法はベンチマークデータセット上でテストされ、最先端の手法よりも一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-24T10:56:02Z) - Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Object Instance Identification in Dynamic Environments [19.009931116468294]
本研究では,オブジェクトと対話する動的環境において,オブジェクトのインスタンスを識別する問題について検討する。
EPIC-KITCHENSデータセット上に構築された1500以上のインスタンスのベンチマークを構築した。
実験結果から, (i) インスタンス固有の外観変化(ii) 低レベル(色, テクスチャ)と高レベル(オブジェクトカテゴリなど)の機能の統合に対する堅牢性が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-06-10T18:38:10Z) - Addressing Multiple Salient Object Detection via Dual-Space Long-Range
Dependencies [3.8824028205733017]
正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。
空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。
複雑なシナリオであっても,本手法は複数の有能な領域を正確に特定できることを示す。
論文 参考訳(メタデータ) (2021-11-04T23:16:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Visual Object Recognition in Indoor Environments Using Topologically
Persistent Features [2.2344764434954256]
見えない屋内環境における物体認識は、移動ロボットの視覚的認識にとって難しい問題である。
本稿では,この課題に対処するために,オブジェクトの形状情報に依存するトポロジカルに永続的な特徴を用いることを提案する。
提案手法を実世界のロボットに実装し,その有用性を実証する。
論文 参考訳(メタデータ) (2020-10-07T06:04:17Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。