論文の概要: PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation
- arxiv url: http://arxiv.org/abs/2406.13378v2
- Date: Sat, 15 Mar 2025 09:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 17:12:40.879954
- Title: PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation
- Title(参考訳): PanDA: 未ラベルパノラマによるパノラマ深度向上に向けて
- Authors: Zidong Cao, Jinjing Zhu, Weiming Zhang, Hao Ai, Haotian Bai, Hengshuang Zhao, Lin Wang,
- Abstract要約: 本論文では,パンダと呼ばれるパノラマ深度基礎モデルを学習するための半教師付き学習フレームワークを提案する。
PanDAは、室内および屋外のパノラマデータセットを用いた共同トレーニングを通じて、DAMを微調整して教師モデルを学ぶ。
実験により、PanDAは様々な場面で顕著なゼロショット能力を示すことが示された。
- 参考スコア(独自算出の注目度): 35.206582458026574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Depth Anything Models (DAMs) - a type of depth foundation models - have demonstrated impressive zero-shot capabilities across diverse perspective images. Despite its success, it remains an open question regarding DAMs' performance on panorama images that enjoy a large field-of-view (180x360) but suffer from spherical distortions. To address this gap, we conduct an empirical analysis to evaluate the performance of DAMs on panoramic images and identify their limitations. For this, we undertake comprehensive experiments to assess the performance of DAMs from three key factors: panoramic representations, 360 camera positions for capturing scenarios, and spherical spatial transformations. This way, we reveal some key findings, e.g., DAMs are sensitive to spatial transformations. We then propose a semi-supervised learning (SSL) framework to learn a panoramic DAM, dubbed PanDA. Under the umbrella of SSL, PanDA first learns a teacher model by fine-tuning DAM through joint training on synthetic indoor and outdoor panoramic datasets. Then, a student model is trained using large-scale unlabeled data, leveraging pseudo-labels generated by the teacher model. To enhance PanDA's generalization capability, M"obius transformation-based spatial augmentation (MTSA) is proposed to impose consistency regularization between the predicted depth maps from the original and spatially transformed ones. This subtly improves the student model's robustness to various spatial transformations, even under severe distortions. Extensive experiments demonstrate that PanDA exhibits remarkable zero-shot capability across diverse scenes, and outperforms the data-specific panoramic depth estimation methods on two popular real-world benchmarks.
- Abstract(参考訳): 最近DAM(Deepth Anything Models) - 深度基礎モデルの一種で、様々な視点画像にまたがる印象的なゼロショット機能を示している。
成功にもかかわらず、DAMが大きな視野(180x360)を楽しみながら球面歪みに悩まされているパノラマ画像のパフォーマンスについて、未解決の疑問が残る。
このギャップに対処するため,パノラマ画像上でのDAMの性能評価と限界の同定を行う実験的検討を行った。
そこで我々は,パノラマ表現,360度カメラ位置の撮影,球面空間変換の3つの重要な要素から,DAMの性能を評価するための総合的な実験を行った。
このようにして、DAMは空間変換に敏感であることを示す。
次に、PanDAと呼ばれるパノラマDAMを学ぶための半教師付き学習(SSL)フレームワークを提案する。
SSLの傘の下で、PanDAはまず、室内および屋外のパノラマデータセットに関する共同トレーニングを通じて、DAMを微調整して教師モデルを学ぶ。
そして、教師モデルによって生成された擬似ラベルを利用して、大規模な未ラベルデータを用いて学生モデルを訓練する。
PanDAの一般化能力を高めるため,M"obius transformation-based space augmentation (MTSA) を提案し,予測深度マップと空間変換深度マップとの整合性正則化を課した。
これにより、厳しい歪みの下でも、様々な空間変換に対する生徒モデルの頑健さが微妙に向上する。
大規模な実験により、PanDAは様々な場面で顕著なゼロショット能力を示し、2つの人気のある実世界のベンチマークでデータ固有のパノラマ深度推定法より優れていることが示された。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - 360SFUDA++: Towards Source-free UDA for Panoramic Segmentation by Learning Reliable Category Prototypes [15.367186190755003]
ピンホール-パノラマセマンティックセマンティックセマンティックセグメンテーションのための難解なソースフリーな教師なしドメイン適応(SFUDA)について検討する。
360SFUDA++は、未ラベルのパノラマ画像のみを用いて、ソースピンホールモデルから知識を効果的に抽出する。
論文 参考訳(メタデータ) (2024-04-25T10:52:08Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - PanoDiffusion: 360-degree Panorama Outpainting via Diffusion [29.10215003547589]
パノディフュージョンと呼ばれる潜在拡散モデル(LDM)を用いた360度室内RGB-Dパノラマ露光モデルを提案する。
トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜時拡散構造を導入する。
以上の結果から,RGB-Dパノラマにおけるパノ拡散法は,様々な種類のマスクに対して多種多様な構造を持つ結果が得られるだけでなく,高品質のパノラマを合成し,リアルな3次元室内モデルを提供することによって,最先端のパノラマ法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-07-06T17:57:02Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with
360{\deg} Views [77.93662205673297]
本研究では,1枚の画像を3Dオブジェクトに持ち上げるという課題について検討する。
所定の参照画像とよく一致する360度ビューを持つ可視3Dオブジェクトを生成する能力を示す。
本稿では,深度を考慮した放射率表現を用いたニューラルLift-360という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T17:59:06Z) - View-aware Salient Object Detection for 360{\deg} Omnidirectional Image [33.43250302656753]
等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T07:44:08Z) - PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation [35.698249161263966]
畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深さ推定手法は、パノラマ歪みの除去に重点を置いている。
本稿では,パノラマ画像の深さを推定するパノラマ変換器を提案する。
特に、球面接領域のパッチをトークンに分割し、パノラマ歪みの負の効果を低減する。
論文 参考訳(メタデータ) (2022-03-17T12:19:43Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos [26.263614207849276]
実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。
SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。
提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
論文 参考訳(メタデータ) (2021-05-24T23:51:29Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。