論文の概要: PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation
- arxiv url: http://arxiv.org/abs/2406.13378v2
- Date: Sat, 15 Mar 2025 09:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:25.382069
- Title: PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation
- Title(参考訳): PanDA: 未ラベルパノラマによるパノラマ深度向上に向けて
- Authors: Zidong Cao, Jinjing Zhu, Weiming Zhang, Hao Ai, Haotian Bai, Hengshuang Zhao, Lin Wang,
- Abstract要約: 本論文では,パンダと呼ばれるパノラマ深度基礎モデルを学習するための半教師付き学習フレームワークを提案する。
PanDAは、室内および屋外のパノラマデータセットを用いた共同トレーニングを通じて、DAMを微調整して教師モデルを学ぶ。
実験により、PanDAは様々な場面で顕著なゼロショット能力を示すことが示された。
- 参考スコア(独自算出の注目度): 35.206582458026574
- License:
- Abstract: Recently, Depth Anything Models (DAMs) - a type of depth foundation models - have demonstrated impressive zero-shot capabilities across diverse perspective images. Despite its success, it remains an open question regarding DAMs' performance on panorama images that enjoy a large field-of-view (180x360) but suffer from spherical distortions. To address this gap, we conduct an empirical analysis to evaluate the performance of DAMs on panoramic images and identify their limitations. For this, we undertake comprehensive experiments to assess the performance of DAMs from three key factors: panoramic representations, 360 camera positions for capturing scenarios, and spherical spatial transformations. This way, we reveal some key findings, e.g., DAMs are sensitive to spatial transformations. We then propose a semi-supervised learning (SSL) framework to learn a panoramic DAM, dubbed PanDA. Under the umbrella of SSL, PanDA first learns a teacher model by fine-tuning DAM through joint training on synthetic indoor and outdoor panoramic datasets. Then, a student model is trained using large-scale unlabeled data, leveraging pseudo-labels generated by the teacher model. To enhance PanDA's generalization capability, M"obius transformation-based spatial augmentation (MTSA) is proposed to impose consistency regularization between the predicted depth maps from the original and spatially transformed ones. This subtly improves the student model's robustness to various spatial transformations, even under severe distortions. Extensive experiments demonstrate that PanDA exhibits remarkable zero-shot capability across diverse scenes, and outperforms the data-specific panoramic depth estimation methods on two popular real-world benchmarks.
- Abstract(参考訳): 最近DAM(Deepth Anything Models) - 深度基礎モデルの一種で、様々な視点画像にまたがる印象的なゼロショット機能を示している。
成功にもかかわらず、DAMが大きな視野(180x360)を楽しみながら球面歪みに悩まされているパノラマ画像のパフォーマンスについて、未解決の疑問が残る。
このギャップに対処するため,パノラマ画像上でのDAMの性能評価と限界の同定を行う実験的検討を行った。
そこで我々は,パノラマ表現,360度カメラ位置の撮影,球面空間変換の3つの重要な要素から,DAMの性能を評価するための総合的な実験を行った。
このようにして、DAMは空間変換に敏感であることを示す。
次に、PanDAと呼ばれるパノラマDAMを学ぶための半教師付き学習(SSL)フレームワークを提案する。
SSLの傘の下で、PanDAはまず、室内および屋外のパノラマデータセットに関する共同トレーニングを通じて、DAMを微調整して教師モデルを学ぶ。
そして、教師モデルによって生成された擬似ラベルを利用して、大規模な未ラベルデータを用いて学生モデルを訓練する。
PanDAの一般化能力を高めるため,M"obius transformation-based space augmentation (MTSA) を提案し,予測深度マップと空間変換深度マップとの整合性正則化を課した。
これにより、厳しい歪みの下でも、様々な空間変換に対する生徒モデルの頑健さが微妙に向上する。
大規模な実験により、PanDAは様々な場面で顕著なゼロショット能力を示し、2つの人気のある実世界のベンチマークでデータ固有のパノラマ深度推定法より優れていることが示された。
関連論文リスト
- AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting [15.177483700681377]
仮想現実からアーキテクチャビジュアライゼーションまで、アプリケーションには3次元のシーンインペイントが不可欠だ。
本稿では,ガウススプラッティングで表現された3次元シーンにおいて,高品質な物体の除去と穴埋めを可能にする新しい参照ベース手法であるAuraFusion360を提案する。
また,360-USIDは,地上の真実を反映した360度非有界シーンの包括的データセットである。
論文 参考訳(メタデータ) (2025-02-07T18:59:55Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with
360{\deg} Views [77.93662205673297]
本研究では,1枚の画像を3Dオブジェクトに持ち上げるという課題について検討する。
所定の参照画像とよく一致する360度ビューを持つ可視3Dオブジェクトを生成する能力を示す。
本稿では,深度を考慮した放射率表現を用いたニューラルLift-360という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T17:59:06Z) - SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos [26.263614207849276]
実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。
SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。
提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
論文 参考訳(メタデータ) (2021-05-24T23:51:29Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。