論文の概要: Learning 3D Scene Analogies with Neural Contextual Scene Maps
- arxiv url: http://arxiv.org/abs/2503.15897v1
- Date: Thu, 20 Mar 2025 06:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:21.070383
- Title: Learning 3D Scene Analogies with Neural Contextual Scene Maps
- Title(参考訳): ニューラル・コンテクチュアル・シーン・マップを用いた3次元シーン・アナロジーの学習
- Authors: Junho Kim, Gwangtak Bae, Eun Sun Lee, Young Min Kim,
- Abstract要約: 本稿では,3次元空間における関係共通点を特定するための教材を提案する。
ポイントワイドやオブジェクトワイドの表現に焦点をあてるのではなく、3Dシーンのアナロジーを導入する。
- 参考スコア(独自算出の注目度): 17.545689536966265
- License:
- Abstract: Understanding scene contexts is crucial for machines to perform tasks and adapt prior knowledge in unseen or noisy 3D environments. As data-driven learning is intractable to comprehensively encapsulate diverse ranges of layouts and open spaces, we propose teaching machines to identify relational commonalities in 3D spaces. Instead of focusing on point-wise or object-wise representations, we introduce 3D scene analogies, which are smooth maps between 3D scene regions that align spatial relationships. Unlike well-studied single instance-level maps, these scene-level maps smoothly link large scene regions, potentially enabling unique applications in trajectory transfer in AR/VR, long demonstration transfer for imitation learning, and context-aware object rearrangement. To find 3D scene analogies, we propose neural contextual scene maps, which extract descriptor fields summarizing semantic and geometric contexts, and holistically align them in a coarse-to-fine manner for map estimation. This approach reduces reliance on individual feature points, making it robust to input noise or shape variations. Experiments demonstrate the effectiveness of our approach in identifying scene analogies and transferring trajectories or object placements in diverse indoor scenes, indicating its potential for robotics and AR/VR applications.
- Abstract(参考訳): シーンコンテキストを理解することは、マシンがタスクを実行し、目に見えない、または騒がしい3D環境で事前知識を適用するために重要である。
データ駆動学習は、様々なレイアウトやオープンスペースを包括的にカプセル化することができるため、3次元空間における関係共通点を識別する教育機械を提案する。
空間的関係を整列する3次元シーン領域間のスムーズなマップである3次元シーン類似を,ポイントワイズやオブジェクトワイズに焦点をあてる代わりに導入する。
良く研究された単一インスタンスレベルのマップとは異なり、これらのシーンレベルのマップは大きなシーン領域をスムーズにリンクし、AR/VRにおける軌跡転送、模倣学習のための長い実演転送、コンテキスト対応オブジェクト再構成におけるユニークな応用を可能にする可能性がある。
3Dシーンの類似性を見つけるために,意味的および幾何学的文脈を要約した記述体フィールドを抽出し,それらを粗大に整列して地図推定を行うニューラル・コンテクスト・シーン・マップを提案する。
このアプローチは個々の特徴点への依存を減らし、ノイズや形状の変化を入力しやすくする。
実験により,屋内の多様なシーンにおけるシーンの類似点の同定と軌道や物体の配置の伝達が,ロボット工学やAR/VR応用の可能性を示す。
関連論文リスト
- SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - SinGRAV: Learning a Generative Radiance Volume from a Single Natural
Scene [42.24260323525382]
本稿では,一般的な自然シーンの3次元生成モデルを提案する。対象シーンを特徴付ける必要量の3Dデータを欠くため,一つのシーンから学ぶことを提案する。
本研究では,自然界における空間的局所性バイアスを有するマルチスケール畳み込みネットワークを利用して,一場面で複数のスケールで局所領域の統計から学習する。
論文 参考訳(メタデータ) (2022-10-03T19:38:14Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。