論文の概要: M3DMap: Object-aware Multimodal 3D Mapping for Dynamic Environments
- arxiv url: http://arxiv.org/abs/2508.17044v1
- Date: Sat, 23 Aug 2025 14:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.312742
- Title: M3DMap: Object-aware Multimodal 3D Mapping for Dynamic Environments
- Title(参考訳): M3DMap:動的環境のためのオブジェクト認識型マルチモーダル3Dマッピング
- Authors: Dmitry Yudin,
- Abstract要約: 画像、点雲、テキストなどのマルチモーダルデータを含む動的3Dシーンの普遍的な表現は存在しない。
本稿では,同時代のアプローチを分類したマルチモーダル3Dマップ構築手法の分類法を提案する。
また、静的シーンと動的シーンの両方のためのマルチモーダル3Dマップをオブジェクト認識で構築するために設計された、M3DMapと呼ばれるオリジナルのモジュラー手法についても記述している。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D mapping in dynamic environments poses a challenge for modern researchers in robotics and autonomous transportation. There are no universal representations for dynamic 3D scenes that incorporate multimodal data such as images, point clouds, and text. This article takes a step toward solving this problem. It proposes a taxonomy of methods for constructing multimodal 3D maps, classifying contemporary approaches based on scene types and representations, learning methods, and practical applications. Using this taxonomy, a brief structured analysis of recent methods is provided. The article also describes an original modular method called M3DMap, designed for object-aware construction of multimodal 3D maps for both static and dynamic scenes. It consists of several interconnected components: a neural multimodal object segmentation and tracking module; an odometry estimation module, including trainable algorithms; a module for 3D map construction and updating with various implementations depending on the desired scene representation; and a multimodal data retrieval module. The article highlights original implementations of these modules and their advantages in solving various practical tasks, from 3D object grounding to mobile manipulation. Additionally, it presents theoretical propositions demonstrating the positive effect of using multimodal data and modern foundational models in 3D mapping methods. Details of the taxonomy and method implementation are available at https://yuddim.github.io/M3DMap.
- Abstract(参考訳): 動的環境における3Dマッピングは、ロボット工学と自律走行における現代の研究者にとって課題となっている。
画像、点雲、テキストなどのマルチモーダルデータを含む動的3Dシーンの普遍的な表現は存在しない。
この記事では、この問題を解決するための一歩を踏み出します。
マルチモーダルな3Dマップ構築手法の分類,シーンタイプと表現,学習方法,実践的応用に基づく現代的アプローチの分類を提案する。
この分類法を用いて、最近の方法の簡単な構造解析を行う。
この記事ではまた、静的および動的シーンの両方を対象としたマルチモーダル3Dマップのオブジェクト指向構築のために設計された、M3DMapと呼ばれるオリジナルのモジュラー手法についても述べる。
ニューラルマルチモーダルオブジェクトセグメンテーションとトラッキングモジュール、トレーニング可能なアルゴリズムを含むオドメトリ推定モジュール、所望のシーン表現に依存する様々な実装で3Dマップの構築と更新を行うモジュール、マルチモーダルデータ検索モジュールである。
この記事では、これらのモジュールのオリジナル実装と、3Dオブジェクトグラウンディングからモバイル操作に至るまで、様々な実用的なタスクの解決におけるそれらの利点を強調します。
さらに,3次元マッピング法において,マルチモーダルデータと現代基礎モデルを用いることによる正の効果を示す理論的命題を提示する。
分類とメソッドの実装の詳細はhttps://yuddim.github.io/M3DMapで確認できる。
関連論文リスト
- Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning [18.185457833299235]
本稿では,複数の3次元シーン理解タスクを同時に扱うために,インスタンス対応3次元大規模マルチモーダルモデル(Inst3D-LMM)を提案する。
まず,MCMF(Multi-view Cross-Modal Fusion)モジュールを導入し,それに対応する幾何学的特徴に多視点2Dセマンティクスを注入する。
シーンレベルの関係対応トークンに対しては、オブジェクト間の複雑な対空間関係をキャプチャするための3次元インスタンス空間関係(3D-ISR)モジュールをさらに提示する。
論文 参考訳(メタデータ) (2025-03-01T14:38:42Z) - Matrix3D: Large Photogrammetry Model All-in-One [31.034664725331073]
Matrix3Dは、いくつかのフォトグラム化サブタスクを実行する統一モデルである。
これには、ポーズ推定、深さ予測、ビュー合成が含まれる。
マルチラウンドインタラクションによるきめ細かい制御を提供する。
論文 参考訳(メタデータ) (2025-02-11T16:36:55Z) - Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images [15.921719523588996]
既存の単分子法とRGB-D法は、欠落や深さの測定によるスケールの曖昧さに悩まされている。
本稿では,カテゴリーレベルの物体検出のための一段階的アプローチであるCoDERSを提案する。
私たちのデータセット、コード、デモはプロジェクトのページで公開されます。
論文 参考訳(メタデータ) (2024-07-09T15:59:03Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。