論文の概要: Any360D: Towards 360 Depth Anything with Unlabeled 360 Data and Möbius Spatial Augmentation
- arxiv url: http://arxiv.org/abs/2406.13378v1
- Date: Wed, 19 Jun 2024 09:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:22:37.754744
- Title: Any360D: Towards 360 Depth Anything with Unlabeled 360 Data and Möbius Spatial Augmentation
- Title(参考訳): Any360D: ラベルのない360度データとメビウス空間拡張による360度奥行き
- Authors: Zidong Cao, Jinjing Zhu, Weiming Zhang, Lin Wang,
- Abstract要約: 我々は、Any360Dと呼ばれる360度深度基礎モデルを学ぶための半教師付き学習フレームワークを提案する。
SSLの傘の下で、Any360Dはまず、メートル法深度監視を通じてDAMを微調整することで教師モデルを学ぶ。
大規模な実験では、Any360DはDAMと多くの先行データ固有モデルより優れており、360度基礎モデルとして印象的なゼロショット能力を示している。
- 参考スコア(独自算出の注目度): 19.202253857381688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Depth Anything Model (DAM) - a type of depth foundation model - reveals impressive zero-shot capacity for diverse perspective images. Despite its success, it remains an open question regarding DAM's performance on 360 images that enjoy a large field-of-view (180x360) but suffer from spherical distortions. To this end, we establish, to our knowledge, the first benchmark that aims to 1) evaluate the performance of DAM on 360 images and 2) develop a powerful 360 DAM for the benefit of the community. For this, we conduct a large suite of experiments that consider the key properties of 360 images, e.g., different 360 representations, various spatial transformations, and diverse indoor and outdoor scenes. This way, our benchmark unveils some key findings, e.g., DAM is less effective for diverse 360 scenes and sensitive to spatial transformations. To address these challenges, we first collect a large-scale unlabeled dataset including diverse indoor and outdoor scenes. We then propose a semi-supervised learning (SSL) framework to learn a 360 DAM, dubbed Any360D. Under the umbrella of SSL, Any360D first learns a teacher model by fine-tuning DAM via metric depth supervision. Then, we train the student model by uncovering the potential of large-scale unlabeled data with pseudo labels from the teacher model. M\"obius transformation-based spatial augmentation (MTSA) is proposed to impose consistency regularization between the unlabeled data and spatially transformed ones. This subtly improves the student model's robustness to various spatial transformations even under severe distortions. Extensive experiments demonstrate that Any360D outperforms DAM and many prior data-specific models, e.g., PanoFormer, across diverse scenes, showing impressive zero-shot capacity for being a 360 depth foundation model.
- Abstract(参考訳): 近年DAM(Deepth Anything Model)と呼ばれる深度基礎モデルでは、多様な視点画像に対して、印象的なゼロショットキャパシティが明らかにされている。
成功にもかかわらず、DAMが大きな視野(180x360)を楽しめるが球面歪みに悩まされている360度画像のパフォーマンスについて、未解決の疑問が残る。
この目的のために私たちは,私たちの知る限り,最初に目標とするベンチマークを確立するのです。
1)360度画像におけるDAMの性能評価と評価
2)コミュニティの利益のために強力な360DAMを開発する。
そこで我々は,360 画像,例えば,異なる360 表現,様々な空間変換,多様な屋内・屋外シーンなどの重要な特性を考察した大規模な実験を行った。
このようにして、我々のベンチマークは、例えば、DAMは多様な360のシーンでは効果が低く、空間変換に敏感である、いくつかの重要な発見を公表する。
これらの課題に対処するために、まず屋内と屋外の多様なシーンを含む大規模なラベルなしデータセットを収集する。
次に、Any360Dと呼ばれる360DAMを学ぶための半教師付き学習(SSL)フレームワークを提案する。
SSLの傘の下で、Any360Dはまず、メートル法深度監視を通じてDAMを微調整することで教師モデルを学ぶ。
そして,教師モデルから擬似ラベルを用いた大規模未ラベルデータの可能性を明らかにすることにより,学生モデルを訓練する。
M\"obius transformation-based spatial augmentation (MTSA) は、未ラベルデータと空間変換データの間に整合性正則化を課すために提案される。
これにより、厳しい歪みの下でも、様々な空間変換に対する生徒モデルの頑健さが微妙に向上する。
大規模な実験では、Any360DはDAMやPanoFormerなど、様々な場面で多くのデータ固有モデルよりも優れており、360度基盤モデルとして印象的なゼロショット能力を示している。
関連論文リスト
- Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with
360{\deg} Views [77.93662205673297]
本研究では,1枚の画像を3Dオブジェクトに持ち上げるという課題について検討する。
所定の参照画像とよく一致する360度ビューを持つ可視3Dオブジェクトを生成する能力を示す。
本稿では,深度を考慮した放射率表現を用いたニューラルLift-360という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T17:59:06Z) - View-aware Salient Object Detection for 360{\deg} Omnidirectional Image [33.43250302656753]
等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T07:44:08Z) - SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos [26.263614207849276]
実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。
SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。
提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
論文 参考訳(メタデータ) (2021-05-24T23:51:29Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。