論文の概要: Cross360: 360° Monocular Depth Estimation via Cross Projections Across Scales
- arxiv url: http://arxiv.org/abs/2601.17271v1
- Date: Sat, 24 Jan 2026 03:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.493402
- Title: Cross360: 360° Monocular Depth Estimation via Cross Projections Across Scales
- Title(参考訳): Cross360: クロスプロジェクションによる360度単眼深度推定
- Authors: Kun Huang, Fang-Lue Zhang, Neil Dodgson,
- Abstract要約: 360度深度推定は、グローバルな連続性を保ち、球面画像の歪みを避ける表現を見つけるのが困難であるため、困難な研究課題である。
既存の方法は、複数の投影からの相補的な情報を活用しようとするが、グローバルな一貫性と局所的な一貫性のバランスに苦慮する。
そこで我々はCross360を提案する。Cross360は局所的・大域的情報と等角的特徴を兼ね備えた局所的・大域的情報を統合した新しいクロスアテンションアーキテクチャである。
- 参考スコア(独自算出の注目度): 16.507716148184457
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 360° depth estimation is a challenging research problem due to the difficulty of finding a representation that both preserves global continuity and avoids distortion in spherical images. Existing methods attempt to leverage complementary information from multiple projections, but struggle with balancing global and local consistency. Their local patch features have limited global perception, and the combined global representation does not address discrepancies in feature extraction at the boundaries between patches. To address these issues, we propose Cross360, a novel cross-attention-based architecture integrating local and global information using less-distorted tangent patches along with equirectangular features. Our Cross Projection Feature Alignment module employs cross-attention to align local tangent projection features with the equirectangular projection's 360° field of view, ensuring each tangent projection patch is aware of the global context. Additionally, our Progressive Feature Aggregation with Attention module refines multi-scaled features progressively, enhancing depth estimation accuracy. Cross360 significantly outperforms existing methods across most benchmark datasets, especially those in which the entire 360° image is available, demonstrating its effectiveness in accurate and globally consistent depth estimation. The code and model are available at https://github.com/huangkun101230/Cross360.
- Abstract(参考訳): 360°深度推定は、グローバルな連続性を保ち、球面画像の歪みを避ける表現を見つけるのが困難であるため、困難な研究課題である。
既存の方法は、複数の投影からの相補的な情報を活用しようとするが、グローバルな一貫性と局所的な一貫性のバランスに苦慮する。
それらの局所的なパッチ特徴は、グローバルな認識が限られており、統合されたグローバル表現は、パッチ間の境界における特徴抽出の相違に対処しない。
これらの問題に対処するため、我々はCross360を提案する。これは、局所的およびグローバルな情報を、非歪な接点パッチと等方形特徴とを用いて統合した、クロスアテンションに基づく新しいアーキテクチャである。
我々のクロスプロジェクション・フィーチャーアライメント・モジュールは、局所接射影特徴と等方射影の360°視野を整列するためにクロスアテンションを用いており、各接射影パッチがグローバルな文脈を認識していることを保証している。
さらに,アテンションモジュールを用いたプログレッシブ・フィーチャー・アグリゲーションにより,多機能化が進み,深度推定精度が向上する。
Cross360は、ほとんどのベンチマークデータセット、特に360度画像が利用可能であるものにおいて、既存の手法よりも大幅に優れており、正確で一貫した深さ推定におけるその有効性を示している。
コードとモデルはhttps://github.com/huangkun101230/Cross360で公開されている。
関連論文リスト
- UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training [76.82789568988557]
DiT360は、パノラマ画像生成のための視点とパノラマデータを用いたハイブリッドトレーニングを行う、DiTベースのフレームワークである。
提案手法は,11の定量的指標間で境界の整合性と画像の忠実度を向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:15Z) - AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting [15.177483700681377]
仮想現実からアーキテクチャビジュアライゼーションまで、アプリケーションには3次元のシーンインペイントが不可欠だ。
本稿では,ガウススプラッティングで表現された3次元シーンにおいて,高品質な物体の除去と穴埋めを可能にする新しい参照ベース手法であるAuraFusion360を提案する。
また,360-USIDは,地上の真実を表現した360degシーンの包括的データセットである。
論文 参考訳(メタデータ) (2025-02-07T18:59:55Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - DiffuBox: Refining 3D Object Detection with Point Diffusion [74.01759893280774]
本研究では,3次元物体の検出と局所化を確保するために,新しい拡散型ボックス精細化手法を提案する。
この方法は、粗いバウンディングボックスを囲むLiDAR点に条件付きドメインに依存しない拡散モデルを用いて、ボックスの位置、サイズ、方向を同時に洗練する。
結果から,異なるデータセット,オブジェクトクラス,検出器間での大幅な改善が示された。
論文 参考訳(メタデータ) (2024-05-25T03:14:55Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition [45.16530801796705]
CrossLoc3Dは、クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法である。
CS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。
論文 参考訳(メタデータ) (2023-03-31T02:50:52Z) - OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion [12.058261716065381]
球面歪み問題に対処するため,360度単分子深度推定パイプライン,textit OmniFusionを提案する。
我々のパイプラインは、360度画像を歪みの少ない視点パッチ(すなわち、タンジェント画像)に変換して、CNNを介してパッチワイズ予測を取得し、最終的な出力のためにパッチワイズ結果をマージする。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T03:19:49Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。