論文の概要: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- arxiv url: http://arxiv.org/abs/2501.08982v1
- Date: Wed, 15 Jan 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:18.150131
- Title: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- Title(参考訳): CityLoc: ガウス表現を伴う大規模シーンにおけるテキスト記述の6DoF局所化
- Authors: Qi Ma, Runyi Yang, Bin Ren, Ender Konukoglu, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 大規模3Dシーンにおけるテキスト記述のローカライズは曖昧な作業である。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本研究では,ノイズの多い6DoFカメラの撮影位置を条件付きで拡散する拡散型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 65.81508273766794
- License:
- Abstract: Localizing text descriptions in large-scale 3D scenes is inherently an ambiguous task. This nonetheless arises while describing general concepts, e.g. all traffic lights in a city. To facilitate reasoning based on such concepts, text localization in the form of distribution is required. In this paper, we generate the distribution of the camera poses conditioned upon the textual description. To facilitate such generation, we propose a diffusion-based architecture that conditionally diffuses the noisy 6DoF camera poses to their plausible locations. The conditional signals are derived from the text descriptions, using the pre-trained text encoders. The connection between text descriptions and pose distribution is established through pretrained Vision-Language-Model, i.e. CLIP. Furthermore, we demonstrate that the candidate poses for the distribution can be further refined by rendering potential poses using 3D Gaussian splatting, guiding incorrectly posed samples towards locations that better align with the textual description, through visual reasoning. We demonstrate the effectiveness of our method by comparing it with both standard retrieval methods and learning-based approaches. Our proposed method consistently outperforms these baselines across all five large-scale datasets. Our source code and dataset will be made publicly available.
- Abstract(参考訳): 大規模3Dシーンにおけるテキスト記述のローカライズは本質的に曖昧な作業である。
それにもかかわらず、これは一般的な概念を記述しながら発生し、例えば都市のすべての信号機が現れる。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本稿では,テキスト記述に基づいてカメラポーズの分布を生成する。
このような生成を容易にするために,ノイズの多い6DoFカメラのポーズを条件付き拡散型アーキテクチャを提案する。
条件信号は、事前訓練されたテキストエンコーダを用いて、テキスト記述から導出される。
テキスト記述とポーズ分布の接続は、事前訓練されたビジョンランゲージモデル、すなわちCLIPによって確立される。
さらに,3次元ガウススプラッティングを用いて潜在的ポーズを描画し,テキスト記述との整合性を向上する位置に向けて間違ったサンプルを導出することにより,分布に対する候補ポーズをさらに洗練できることを実証した。
提案手法の有効性を,標準検索手法と学習ベース手法を比較して示す。
提案手法は5つの大規模データセットのベースラインを一貫して上回る。
ソースコードとデータセットを公開します。
関連論文リスト
- EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images [7.363332481155945]
本稿では,3D Splatting (GS) 技術をシーン表現として活用した視覚に基づくローカライゼーションパイプラインを提案する。
マッピングフェーズでは、まずStructure-from-motion(SfM)を適用し、続いてGSマップを生成する。
高精度なポーズは、地図上で解析的に達成される。
論文 参考訳(メタデータ) (2024-10-15T11:17:18Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - Learning and Matching Multi-View Descriptors for Registration of Point
Clouds [48.25586496457587]
まず,複数視点の画像から学習した多視点局所記述子を3次元キーポイント記述のために提案する。
そこで我々は,効率的な推論に基づいて,外乱マッチングを拒否することを目的とした,ロバストなマッチング手法を開発した。
我々は、パブリックスキャンとマルチビューステレオデータセットの登録に対する我々のアプローチの強化を実証した。
論文 参考訳(メタデータ) (2018-07-16T01:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。