論文の概要: PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2411.16750v1
- Date: Sun, 24 Nov 2024 05:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:20.016846
- Title: PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation
- Title(参考訳): PriorDiffusion: 単眼深度推定のための拡散モデルに先立つレバレッジ言語
- Authors: Ziyao Zeng, Jingcheng Ni, Daniel Wang, Patrick Rim, Younjoon Chung, Fengyu Yang, Byung-Woo Hong, Alex Wong,
- Abstract要約: 我々は,言語記述に整合した幾何学的事前情報を活用することにより,単眼深度推定の精度を高めることができると論じる。
本稿では,アフィン不変深度を推定するために,シーンと一致した画像とテキスト記述の両方を取り入れた事前学習されたテキスト・画像拡散モデルを用いて,事前拡散を提案する。
言語先行者は,モデルの注意を特定の領域に誘導し,ユーザの意図に合わせて3Dシーンを知覚するのに役立つことを示す。
- 参考スコア(独自算出の注目度): 10.856377349228927
- License:
- Abstract: This paper explores the potential of leveraging language priors learned by text-to-image diffusion models to address ambiguity and visual nuisance in monocular depth estimation. Particularly, traditional monocular depth estimation suffers from inherent ambiguity due to the absence of stereo or multi-view depth cues, and nuisance due to lack of robustness of vision. We argue that language prior in diffusion models can enhance monocular depth estimation by leveraging the geometric prior aligned with the language description, which is learned during text-to-image pre-training. To generate images that reflect the text properly, the model must comprehend the size and shape of specified objects, their spatial relationship, and the scale of the scene. Thus, we propose PriorDiffusion, using a pre-trained text-to-image diffusion model that takes both image and text description that aligned with the scene to infer affine-invariant depth through a denoising process. We also show that language priors can guide the model's attention to specific regions and help it perceive the 3D scene in alignment with user intent. Simultaneously, it acts as a constraint to accelerate the convergence of the diffusion trajectory, since learning 3D properties from a condensed, low-dimensional language feature is more efficient compared with learning from a redundant, high-dimensional image feature. By training on HyperSim and Virtual KITTI, we achieve state-of-the-art zero-shot performance and a faster convergence speed, compared with other diffusion-based depth estimators, across NYUv2, KITTI, ETH3D, and ScanNet.
- Abstract(参考訳): 本稿では,単眼深度推定における曖昧さと視覚的ニュアンスに対処するために,テキスト・画像拡散モデルによって学習された言語先行性を活用する可能性について検討する。
特に、従来の単眼深度推定は、立体視や多視点深度が欠如していることや、視力の堅牢さが欠如していることにより、固有の曖昧さに悩まされている。
テキスト・ツー・イメージ事前学習において学習した言語記述に合わせた幾何学的事前記述を活用することにより,拡散モデルにおける先行言語は単眼深度推定を向上することができると論じる。
テキストを適切に反映した画像を生成するためには、特定対象のサイズと形状、空間的関係、シーンの規模を理解する必要がある。
そこで本稿では,シーンと一致した画像記述とテキスト記述を併用して,デノナイズプロセスを通じてアフィン不変深度を推定する事前学習型テキスト・画像拡散モデルを提案する。
また,言語先行者は,モデルの注意を特定の領域に誘導し,ユーザの意図に合わせた3Dシーンの認識を支援することも示している。
縮合された低次元言語特徴から3次元特性を学習することは、冗長な高次元画像特徴からの学習よりも効率的であるため、拡散軌跡の収束を加速する制約として機能する。
HyperSimとVirtual KITTIのトレーニングにより、NYUv2、KITTI、ETH3D、ScanNetをまたいだ他の拡散型深度推定器と比較して、最先端のゼロショット性能と高速な収束速度を実現する。
関連論文リスト
- Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。