論文の概要: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- arxiv url: http://arxiv.org/abs/2501.08982v1
- Date: Wed, 15 Jan 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:18.150131
- Title: CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation
- Title(参考訳): CityLoc: ガウス表現を伴う大規模シーンにおけるテキスト記述の6DoF局所化
- Authors: Qi Ma, Runyi Yang, Bin Ren, Ender Konukoglu, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 大規模3Dシーンにおけるテキスト記述のローカライズは曖昧な作業である。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本研究では,ノイズの多い6DoFカメラの撮影位置を条件付きで拡散する拡散型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 65.81508273766794
- License:
- Abstract: Localizing text descriptions in large-scale 3D scenes is inherently an ambiguous task. This nonetheless arises while describing general concepts, e.g. all traffic lights in a city. To facilitate reasoning based on such concepts, text localization in the form of distribution is required. In this paper, we generate the distribution of the camera poses conditioned upon the textual description. To facilitate such generation, we propose a diffusion-based architecture that conditionally diffuses the noisy 6DoF camera poses to their plausible locations. The conditional signals are derived from the text descriptions, using the pre-trained text encoders. The connection between text descriptions and pose distribution is established through pretrained Vision-Language-Model, i.e. CLIP. Furthermore, we demonstrate that the candidate poses for the distribution can be further refined by rendering potential poses using 3D Gaussian splatting, guiding incorrectly posed samples towards locations that better align with the textual description, through visual reasoning. We demonstrate the effectiveness of our method by comparing it with both standard retrieval methods and learning-based approaches. Our proposed method consistently outperforms these baselines across all five large-scale datasets. Our source code and dataset will be made publicly available.
- Abstract(参考訳): 大規模3Dシーンにおけるテキスト記述のローカライズは本質的に曖昧な作業である。
それにもかかわらず、これは一般的な概念を記述しながら発生し、例えば都市のすべての信号機が現れる。
このような概念に基づく推論を容易にするためには、配布形態のテキストローカライゼーションが必要である。
本稿では,テキスト記述に基づいてカメラポーズの分布を生成する。
このような生成を容易にするために,ノイズの多い6DoFカメラのポーズを条件付き拡散型アーキテクチャを提案する。
条件信号は、事前訓練されたテキストエンコーダを用いて、テキスト記述から導出される。
テキスト記述とポーズ分布の接続は、事前訓練されたビジョンランゲージモデル、すなわちCLIPによって確立される。
さらに,3次元ガウススプラッティングを用いて潜在的ポーズを描画し,テキスト記述との整合性を向上する位置に向けて間違ったサンプルを導出することにより,分布に対する候補ポーズをさらに洗練できることを実証した。
提案手法の有効性を,標準検索手法と学習ベース手法を比較して示す。
提案手法は5つの大規模データセットのベースラインを一貫して上回る。
ソースコードとデータセットを公開します。
関連論文リスト
- WorDepth: Variational Language Prior for Monocular Depth Estimation [47.614203035800735]
本研究は,2つの固有不明瞭なモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
一つの画像から高密度深度マップを予測する問題である単眼深度推定に焦点をあてる。
我々のアプローチはテキストと画像の分岐を交互に訓練する。
論文 参考訳(メタデータ) (2024-04-04T17:54:33Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - PoseScript: Linking 3D Human Poses and Natural Language [38.85620213438554]
このデータセットは、6万以上の人間のポーズとリッチな人間アノテーションによる記述をペアリングする。
データセットのサイズを、データハングリー学習アルゴリズムと互換性のあるスケールに拡大するために、精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
論文 参考訳(メタデータ) (2022-10-21T08:18:49Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。