論文の概要: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- arxiv url: http://arxiv.org/abs/2501.08982v1
- Date: Wed, 15 Jan 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 16:46:28.512341
- Title: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- Title(参考訳): CityLoc: ガウス表現を伴う大規模シーンにおけるテキスト記述の6DoF局所化
- Authors: Qi Ma, Runyi Yang, Bin Ren, Ender Konukoglu, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 大規模3Dシーンにおけるテキスト記述のローカライズは曖昧な作業である。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本研究では,ノイズの多い6DoFカメラの撮影位置を条件付きで拡散する拡散型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 65.81508273766794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing text descriptions in large-scale 3D scenes is inherently an ambiguous task. This nonetheless arises while describing general concepts, e.g. all traffic lights in a city. To facilitate reasoning based on such concepts, text localization in the form of distribution is required. In this paper, we generate the distribution of the camera poses conditioned upon the textual description. To facilitate such generation, we propose a diffusion-based architecture that conditionally diffuses the noisy 6DoF camera poses to their plausible locations. The conditional signals are derived from the text descriptions, using the pre-trained text encoders. The connection between text descriptions and pose distribution is established through pretrained Vision-Language-Model, i.e. CLIP. Furthermore, we demonstrate that the candidate poses for the distribution can be further refined by rendering potential poses using 3D Gaussian splatting, guiding incorrectly posed samples towards locations that better align with the textual description, through visual reasoning. We demonstrate the effectiveness of our method by comparing it with both standard retrieval methods and learning-based approaches. Our proposed method consistently outperforms these baselines across all five large-scale datasets. Our source code and dataset will be made publicly available.
- Abstract(参考訳): 大規模3Dシーンにおけるテキスト記述のローカライズは本質的に曖昧な作業である。
それにもかかわらず、これは一般的な概念を記述しながら発生し、例えば都市のすべての信号機が現れる。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本稿では,テキスト記述に基づいてカメラポーズの分布を生成する。
このような生成を容易にするために,ノイズの多い6DoFカメラのポーズを条件付き拡散型アーキテクチャを提案する。
条件信号は、事前訓練されたテキストエンコーダを用いて、テキスト記述から導出される。
テキスト記述とポーズ分布の接続は、事前訓練されたビジョンランゲージモデル、すなわちCLIPによって確立される。
さらに,3次元ガウススプラッティングを用いて潜在的ポーズを描画し,テキスト記述との整合性を向上する位置に向けて間違ったサンプルを導出することにより,分布に対する候補ポーズをさらに洗練できることを実証した。
提案手法の有効性を,標準検索手法と学習ベース手法を比較して示す。
提案手法は5つの大規模データセットのベースラインを一貫して上回る。
ソースコードとデータセットを公開します。
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images [7.363332481155945]
本稿では,3D Splatting (GS) 技術をシーン表現として活用した視覚に基づくローカライゼーションパイプラインを提案する。
マッピングフェーズでは、まずStructure-from-motion(SfM)を適用し、続いてGSマップを生成する。
高精度なポーズは、地図上で解析的に達成される。
論文 参考訳(メタデータ) (2024-10-15T11:17:18Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - WorDepth: Variational Language Prior for Monocular Depth Estimation [47.614203035800735]
本研究は,2つの固有不明瞭なモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
一つの画像から高密度深度マップを予測する問題である単眼深度推定に焦点をあてる。
我々のアプローチはテキストと画像の分岐を交互に訓練する。
論文 参考訳(メタデータ) (2024-04-04T17:54:33Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Learning and Matching Multi-View Descriptors for Registration of Point
Clouds [48.25586496457587]
まず,複数視点の画像から学習した多視点局所記述子を3次元キーポイント記述のために提案する。
そこで我々は,効率的な推論に基づいて,外乱マッチングを拒否することを目的とした,ロバストなマッチング手法を開発した。
我々は、パブリックスキャンとマルチビューステレオデータセットの登録に対する我々のアプローチの強化を実証した。
論文 参考訳(メタデータ) (2018-07-16T01:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。