論文の概要: Zero-Shot Scene Reconstruction from Single Images with Deep Prior Assembly
- arxiv url: http://arxiv.org/abs/2410.15971v1
- Date: Mon, 21 Oct 2024 12:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:24.651930
- Title: Zero-Shot Scene Reconstruction from Single Images with Deep Prior Assembly
- Title(参考訳): 深部事前組立体画像からのゼロショットシーン再構成
- Authors: Junsheng Zhou, Yu-Shen Liu, Zhizhong Han,
- Abstract要約: ゼロショット方式で1枚の画像からシーンを再構成するための大規模モデルから多様な奥行きを組み立てる新しいフレームワークであるDeep Pre Assemblyを提示する。
深い事前アセンブリは、タスクで3Dまたは2Dデータ駆動のトレーニングを一切必要とせず、オープンワールドシーンへの事前の一般化において優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 54.02852066129977
- License:
- Abstract: Large language and vision models have been leading a revolution in visual computing. By greatly scaling up sizes of data and model parameters, the large models learn deep priors which lead to remarkable performance in various tasks. In this work, we present deep prior assembly, a novel framework that assembles diverse deep priors from large models for scene reconstruction from single images in a zero-shot manner. We show that this challenging task can be done without extra knowledge but just simply generalizing one deep prior in one sub-task. To this end, we introduce novel methods related to poses, scales, and occlusion parsing which are keys to enable deep priors to work together in a robust way. Deep prior assembly does not require any 3D or 2D data-driven training in the task and demonstrates superior performance in generalizing priors to open-world scenes. We conduct evaluations on various datasets, and report analysis, numerical and visual comparisons with the latest methods to show our superiority. Project page: https://junshengzhou.github.io/DeepPriorAssembly.
- Abstract(参考訳): 大規模言語とビジョンモデルは、ビジュアルコンピューティングにおける革命を導いてきた。
データのサイズとモデルパラメータを大きくスケールアップすることで、大きなモデルは、さまざまなタスクにおいて顕著なパフォーマンスをもたらす、深い事前知識を学習する。
本研究では,ゼロショット方式で1枚の画像からシーンを再構成する大規模モデルから,多様な奥行きを組み立てる新しいフレームワークであるディープ・プレファレンス・アセンブリを提案する。
この挑戦的なタスクは、余分な知識を必要とせず、単に1つのサブタスクで1つの深い事前を一般化するだけで実現できることを示す。
そこで本研究では,ポーズ,スケール,オクルージョン解析に関連する新しい手法を提案する。
深い事前アセンブリは、タスクで3Dまたは2Dデータ駆動のトレーニングを一切必要とせず、オープンワールドシーンへの事前の一般化において優れたパフォーマンスを示す。
本研究は, 各種データセットの評価を行い, 報告分析, 数値的, 視覚的比較を行い, 優位性を示す。
プロジェクトページ: https://junshengzhou.github.io/DeepPriorAssembly.com
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。