論文の概要: NextBestPath: Efficient 3D Mapping of Unseen Environments
- arxiv url: http://arxiv.org/abs/2502.05378v1
- Date: Fri, 07 Feb 2025 23:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:09.058437
- Title: NextBestPath: Efficient 3D Mapping of Unseen Environments
- Title(参考訳): NextBestPath: 見えない環境の効率的な3Dマッピング
- Authors: Shiyao Li, Antoine Guédon, Clémentin Boittiaux, Shizhe Chen, Vincent Lepetit,
- Abstract要約: 従来のアプローチでは、主にエージェントの位置に近い次の最良のビューを予測するが、これは局所的に立ち往生する傾向にある。
本研究では,Dom ゲーム用のマップ生成器を備えた新しいデータセット AiMDoom を導入し,多様な屋内環境におけるアクティブな3Dマッピングのベンチマークを行う。
我々は、近視視点のみに焦点をあてるのではなく、長期的な目標を予測できる、NBP(Next-best-path)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 33.62355071343121
- License:
- Abstract: This work addresses the problem of active 3D mapping, where an agent must find an efficient trajectory to exhaustively reconstruct a new scene. Previous approaches mainly predict the next best view near the agent's location, which is prone to getting stuck in local areas. Additionally, existing indoor datasets are insufficient due to limited geometric complexity and inaccurate ground truth meshes. To overcome these limitations, we introduce a novel dataset AiMDoom with a map generator for the Doom video game, enabling to better benchmark active 3D mapping in diverse indoor environments. Moreover, we propose a new method we call next-best-path (NBP), which predicts long-term goals rather than focusing solely on short-sighted views. The model jointly predicts accumulated surface coverage gains for long-term goals and obstacle maps, allowing it to efficiently plan optimal paths with a unified model. By leveraging online data collection, data augmentation and curriculum learning, NBP significantly outperforms state-of-the-art methods on both the existing MP3D dataset and our AiMDoom dataset, achieving more efficient mapping in indoor environments of varying complexity.
- Abstract(参考訳): この研究は、エージェントが新しいシーンを徹底的に再構築するための効率的な軌道を見つける必要がある、アクティブな3Dマッピングの問題に対処する。
従来のアプローチでは、主にエージェントの位置に近い次の最良のビューを予測するが、これは局所的に立ち往生する傾向にある。
さらに、既存の屋内データセットは、幾何学的複雑さの制限と不正確な地上の真理メッシュのために不十分である。
これらの制約を克服するために,Dom ゲーム用のマップ生成器を備えた新しいデータセット AiMDoom を導入し,多様な屋内環境におけるアクティブな3Dマッピングのベンチマークを行う。
また,近視視点のみに焦点をあてるのではなく,長期的な目標を予測できるNext-best-path (NBP) という手法を提案する。
このモデルは、長期目標と障害物マップの蓄積した表面積のゲインを共同で予測し、統一されたモデルで最適な経路を効率的に計画することができる。
オンラインデータ収集,データ拡張,カリキュラム学習を活用することで,既存のMP3DデータセットとAIMDoomデータセットの両方において最先端の手法を著しく上回り,複雑さの異なる屋内環境におけるより効率的なマッピングを実現している。
関連論文リスト
- AdaOcc: Adaptive-Resolution Occupancy Prediction [20.0994984349065]
AdaOccは適応分解能でマルチモーダルな予測手法である。
提案手法は,オブジェクト中心の3次元再構成と全体的占有予測を一つのフレームワークに統合する。
近距離シナリオでは、以前のベースラインを13%以上、ハウスドルフ距離を40%以上上回る。
論文 参考訳(メタデータ) (2024-08-24T03:46:25Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping [46.80755234561584]
最近の学習ベース手法は,3次元シーンの表面を近似するために,ニューラル暗黙表現と最適化可能な特徴グリッドを統合している。
この作業では、LiDARデータを正確にフィッティングすることから離れ、代わりにネットワークが3D空間で定義された非メトリックモノトニック暗黙フィールドを最適化する。
提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。
論文 参考訳(メタデータ) (2024-03-26T09:58:06Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Comparison of Model-Free and Model-Based Learning-Informed Planning for
PointGoal Navigation [10.797100163772482]
我々は,最先端のDeep Reinforcement Learningに基づくアプローチと,ポイントゴールナビゲーション問題に対する部分観測可能なマルコフ決定プロセス(POMDP)の定式化を比較した。
私たちは、SOTA DD-PPOアプローチよりも若干パフォーマンスが劣るが、データが少ないことを示しています。
論文 参考訳(メタデータ) (2022-12-17T05:23:54Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。
実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。
フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文 参考訳(メタデータ) (2021-03-01T20:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。