論文の概要: WorDepth: Variational Language Prior for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2404.03635v2
- Date: Fri, 5 Apr 2024 17:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 11:45:06.584338
- Title: WorDepth: Variational Language Prior for Monocular Depth Estimation
- Title(参考訳): WorDepth: 単眼深度推定に先立つ変分言語
- Authors: Ziyao Zeng, Daniel Wang, Fengyu Yang, Hyoungseob Park, Yangchao Wu, Stefano Soatto, Byung-Woo Hong, Dong Lao, Alex Wong,
- Abstract要約: 本研究は,2つの固有不明瞭なモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
一つの画像から高密度深度マップを予測する問題である単眼深度推定に焦点をあてる。
我々のアプローチはテキストと画像の分岐を交互に訓練する。
- 参考スコア(独自算出の注目度): 47.614203035800735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To "select" a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.
- Abstract(参考訳): 単一画像からの3次元3次元再構成は、固有の曖昧さ、すなわちスケールに関する不適切な問題である。
テキスト記述(s)から3Dシーンを予測するのも同様に、例えば、記述されたオブジェクトの空間配置が不適切である。
本研究では,2つの本質的にあいまいなモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。
これをテストするために、単眼深度推定(単眼深度推定)、一眼画像から深度マップを予測する問題、シーンを記述した追加のテキストキャプションに焦点をあてる。
この目的のために,テキストキャプションを平均および標準偏差として符号化することから始め,変分フレームワークを用いて,テキストキャプションに対応する3次元シーンの可算的再現の分布を先行として学習する。
特定の再構成や深度マップを「選択」するために、与えられた画像を条件付きサンプルにより符号化し、変分テキストエンコーダの潜時空間からサンプリングし、出力深度マップに復号する。
1つの最適化ステップでは、標準ガウス語からのテキスト記述とサンプルからの平均偏差と標準偏差を予測し、もう1つは(画像)条件付きサンプルを用いてサンプルをサンプリングする。
トレーニングが完了すると、条件付きサンプルを用いて、エンコードされたテキストから深度を直接予測する。
室内(NYUv2)と屋外(KITTI)のシナリオに対する我々のアプローチを実証する。
関連論文リスト
- PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation [10.856377349228927]
我々は,言語記述に整合した幾何学的事前情報を活用することにより,単眼深度推定の精度を高めることができると論じる。
本稿では,アフィン不変深度を推定するために,シーンと一致した画像とテキスト記述の両方を取り入れた事前学習されたテキスト・画像拡散モデルを用いて,事前拡散を提案する。
言語先行者は,モデルの注意を特定の領域に誘導し,ユーザの意図に合わせて3Dシーンを知覚するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-11-24T05:07:10Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。