論文の概要: SD-OVON: A Semantics-aware Dataset and Benchmark Generation Pipeline for Open-Vocabulary Object Navigation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2505.18881v1
- Date: Sat, 24 May 2025 21:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.71817
- Title: SD-OVON: A Semantics-aware Dataset and Benchmark Generation Pipeline for Open-Vocabulary Object Navigation in Dynamic Scenes
- Title(参考訳): SD-OVON:動的シーンにおけるオープン語彙オブジェクトナビゲーションのためのセマンティックス対応データセットとベンチマーク生成パイプライン
- Authors: Dicong Qiu, Jiadi You, Zeying Gong, Ronghe Qiu, Hui Xiong, Junwei Liang,
- Abstract要約: 動的シーンにおけるオープン語彙オブジェクトナビゲーションのためのセマンティックス対応データセットとベンチマーク生成パイプライン(SD-OVON)を提案する。
事前訓練されたマルチモーダル基礎モデルを用いて、現実のセマンティクスと日々のコモンセンスに準拠した無限のフォトリアリスティックシーンの変種を生成し、ナビゲーションエージェントの訓練と評価を行う。
オープン語彙オブジェクトナビゲーションタスクの約3kと10kのエピソードから構成されるSD-OVON-3kとSD-OVON-10kの2つの事前生成オブジェクトナビゲーションタスクデータセットを提供する。
- 参考スコア(独自算出の注目度): 15.178229677519063
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the Semantics-aware Dataset and Benchmark Generation Pipeline for Open-vocabulary Object Navigation in Dynamic Scenes (SD-OVON). It utilizes pretraining multimodal foundation models to generate infinite unique photo-realistic scene variants that adhere to real-world semantics and daily commonsense for the training and the evaluation of navigation agents, accompanied with a plugin for generating object navigation task episodes compatible to the Habitat simulator. In addition, we offer two pre-generated object navigation task datasets, SD-OVON-3k and SD-OVON-10k, comprising respectively about 3k and 10k episodes of the open-vocabulary object navigation task, derived from the SD-OVON-Scenes dataset with 2.5k photo-realistic scans of real-world environments and the SD-OVON-Objects dataset with 0.9k manually inspected scanned and artist-created manipulatable object models. Unlike prior datasets limited to static environments, SD-OVON covers dynamic scenes and manipulatable objects, facilitating both real-to-sim and sim-to-real robotic applications. This approach enhances the realism of navigation tasks, the training and the evaluation of open-vocabulary object navigation agents in complex settings. To demonstrate the effectiveness of our pipeline and datasets, we propose two baselines and evaluate them along with state-of-the-art baselines on SD-OVON-3k. The datasets, benchmark and source code are publicly available.
- Abstract(参考訳): 動的シーンにおけるオープン語彙オブジェクトナビゲーションのためのセマンティックス対応データセットとベンチマーク生成パイプライン(SD-OVON)を提案する。
事前訓練されたマルチモーダル基礎モデルを用いて、実世界の意味論やナビゲーションエージェントの評価に日々のコモンセンスに忠実な無限のフォトリアリスティックシーンを生成し、ハビタットシミュレータと互換性のあるオブジェクトナビゲーションタスクエピソードを生成するプラグインを伴っている。
さらに、SD-OVON-3kとSD-OVON-10kという2つの事前生成オブジェクトナビゲーションタスクデータセットを提供し、SD-OVON-Scenesデータセットと0.9kのSD-OVON-Objectsデータセットを手動でスキャンし、アーティストが作成したマニピュラブルオブジェクトモデルを用いて、SD-OVON-Scenesデータセットから3kと10kのエピソードを抽出した。
静的環境に限定された以前のデータセットとは異なり、SD-OVONは動的シーンと操作可能なオブジェクトをカバーし、リアル・トゥ・シミュレートとシミュレート・トゥ・リアルの両方のロボティック・アプリケーションを容易にする。
このアプローチにより,複雑な環境下でのナビゲーションタスクの現実性,トレーニング,オープン語彙オブジェクトナビゲーションエージェントの評価が向上する。
パイプラインとデータセットの有効性を示すため,SD-OVON-3kの2つのベースラインを提案し,それらのベースラインと最先端ベースラインの評価を行った。
データセット、ベンチマーク、ソースコードが公開されている。
関連論文リスト
- HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。
HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。
我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文 参考訳(メタデータ) (2024-09-22T02:12:29Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文 参考訳(メタデータ) (2022-02-02T15:00:44Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。