論文の概要: CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation
- arxiv url: http://arxiv.org/abs/2501.08982v2
- Date: Mon, 03 Feb 2025 10:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 15:57:53.480637
- Title: CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation
- Title(参考訳): CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-scale Scenes with Gaussian Representation
- Authors: Qi Ma, Runyi Yang, Bin Ren, Nicu Sebe, Ender Konukoglu, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 本稿では,テキスト記述に基づくカメラポーズの分布生成手法を提案する。
提案手法では,ノイズの多い6DoFカメラを高精細化するために拡散型アーキテクチャを用いる。
5つの大規模データセットの標準分布推定法と比較し,本手法の優位性を検証した。
- 参考スコア(独自算出の注目度): 99.23408146027462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing textual descriptions within large-scale 3D scenes presents inherent ambiguities, such as identifying all traffic lights in a city. Addressing this, we introduce a method to generate distributions of camera poses conditioned on textual descriptions, facilitating robust reasoning for broadly defined concepts. Our approach employs a diffusion-based architecture to refine noisy 6DoF camera poses towards plausible locations, with conditional signals derived from pre-trained text encoders. Integration with the pretrained Vision-Language Model, CLIP, establishes a strong linkage between text descriptions and pose distributions. Enhancement of localization accuracy is achieved by rendering candidate poses using 3D Gaussian splatting, which corrects misaligned samples through visual reasoning. We validate our method's superiority by comparing it against standard distribution estimation methods across five large-scale datasets, demonstrating consistent outperformance. Code, datasets and more information will be publicly available at our project page.
- Abstract(参考訳): 大規模3Dシーン内のテキスト記述のローカライズは、都市内のすべての信号機を識別するなど、固有の曖昧さを示す。
そこで本稿では,テキスト記述に条件付きカメラポーズの分布を生成する手法を導入し,広義の概念に対する堅牢な推論を容易にする。
提案手法では,ノイズの多い6DoFカメラを,事前学習したテキストエンコーダから導出される条件付き信号を用いて,高精細化するために拡散型アーキテクチャを用いる。
事前訓練されたビジョンランゲージモデル(CLIP)との統合は、テキスト記述とポーズ分布の強いリンクを確立する。
局所化精度の向上は、3次元ガウススプラッティングを用いて候補ポーズをレンダリングすることで達成される。
5つの大規模データセットの標準分布推定法と比較し,一貫した性能を示すことにより,本手法の優位性を検証した。
コード、データセット、その他の情報は、プロジェクトのページで公開されます。
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images [7.363332481155945]
本稿では,3D Splatting (GS) 技術をシーン表現として活用した視覚に基づくローカライゼーションパイプラインを提案する。
マッピングフェーズでは、まずStructure-from-motion(SfM)を適用し、続いてGSマップを生成する。
高精度なポーズは、地図上で解析的に達成される。
論文 参考訳(メタデータ) (2024-10-15T11:17:18Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - WorDepth: Variational Language Prior for Monocular Depth Estimation [47.614203035800735]
本研究は,2つの固有不明瞭なモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
一つの画像から高密度深度マップを予測する問題である単眼深度推定に焦点をあてる。
我々のアプローチはテキストと画像の分岐を交互に訓練する。
論文 参考訳(メタデータ) (2024-04-04T17:54:33Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Learning and Matching Multi-View Descriptors for Registration of Point
Clouds [48.25586496457587]
まず,複数視点の画像から学習した多視点局所記述子を3次元キーポイント記述のために提案する。
そこで我々は,効率的な推論に基づいて,外乱マッチングを拒否することを目的とした,ロバストなマッチング手法を開発した。
我々は、パブリックスキャンとマルチビューステレオデータセットの登録に対する我々のアプローチの強化を実証した。
論文 参考訳(メタデータ) (2018-07-16T01:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。