論文の概要: Finding 3D Scene Analogies with Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2510.23184v1
- Date: Mon, 27 Oct 2025 10:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.520565
- Title: Finding 3D Scene Analogies with Multimodal Foundation Models
- Title(参考訳): マルチモーダルファンデーションモデルを用いた3次元シーンアナロジーの探索
- Authors: Junho Kim, Young Min Kim,
- Abstract要約: これまでの経験と現在の観察を結びつけることで、ロボットは新しい、目に見えない3D環境に適応し、計画することが可能になる。
近年,2つの3次元シーンを繋ぐ3次元シーンの類似性が提案されている。
我々は,ゼロショット,オープンボキャブラリ設定で3次元シーンの類似点を見つけるために,マルチモーダル基礎モデルを提案する。
- 参考スコア(独自算出の注目度): 21.986538846393874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connecting current observations with prior experiences helps robots adapt and plan in new, unseen 3D environments. Recently, 3D scene analogies have been proposed to connect two 3D scenes, which are smooth maps that align scene regions with common spatial relationships. These maps enable detailed transfer of trajectories or waypoints, potentially supporting demonstration transfer for imitation learning or task plan transfer across scenes. However, existing methods for the task require additional training and fixed object vocabularies. In this work, we propose to use multimodal foundation models for finding 3D scene analogies in a zero-shot, open-vocabulary setting. Central to our approach is a hybrid neural representation of scenes that consists of a sparse graph based on vision-language model features and a feature field derived from 3D shape foundation models. 3D scene analogies are then found in a coarse-to-fine manner, by first aligning the graph and refining the correspondence with feature fields. Our method can establish accurate correspondences between complex scenes, and we showcase applications in trajectory and waypoint transfer.
- Abstract(参考訳): これまでの経験と現在の観察を結びつけることで、ロボットは新しい、目に見えない3D環境に適応し、計画することが可能になる。
近年,2つの3次元シーンを繋ぐ3次元シーンの類似性が提案されている。
これらのマップは、軌道や経路の詳細な転送を可能にし、模倣学習のためのデモンストレーション転送や、シーン間のタスクプラン転送をサポートする可能性がある。
しかし、タスクの既存の方法は、追加のトレーニングと固定されたオブジェクト語彙を必要とする。
本研究では,ゼロショット,オープンボキャブラリ設定における3次元シーンの類似点を見つけるために,マルチモーダル基礎モデルを提案する。
我々のアプローチの中心は、視覚言語モデルの特徴に基づくスパースグラフと、3次元形状基礎モデルから派生した特徴場からなるシーンのハイブリッドニューラル表現である。
3Dシーンの類似は、まずグラフを整列し、特徴体との対応を洗練することにより、粗い方法で見つかる。
本手法は,複雑なシーン間の正確な対応性を確立し,軌跡転送やウェイポイント転送の応用を実証する。
関連論文リスト
- ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2025-10-24T00:52:33Z) - Learning 3D Scene Analogies with Neural Contextual Scene Maps [17.545689536966265]
3Dシーンの類似は、空間的関係を整列する3Dシーン領域間の滑らかなマップである。
本稿では,意味的および幾何学的文脈を要約した記述体フィールドを抽出する,ニューラルネットワークによるシーンマップを提案する。
様々な屋内シーンにおけるシーンの類似点の同定と軌跡の伝達におけるアプローチの有効性を実験により実証した。
論文 参考訳(メタデータ) (2025-03-20T06:49:33Z) - Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [20.379104447051155]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。