論文の概要: MTPano: Multi-Task Panoramic Scene Understanding via Label-Free Integration of Dense Prediction Priors
- arxiv url: http://arxiv.org/abs/2602.05330v1
- Date: Thu, 05 Feb 2026 05:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.775785
- Title: MTPano: Multi-Task Panoramic Scene Understanding via Label-Free Integration of Dense Prediction Priors
- Title(参考訳): MTPano: ラベルフリー統合によるマルチタスクパノラマシーン理解
- Authors: Jingdong Zhang, Xiaohang Zhan, Lingzhi Zhang, Yizhou Wang, Zhengming Yu, Jionghao Wang, Wenping Wang, Xin Li,
- Abstract要約: MTPanoは、ラベルのないトレーニングパイプラインによって確立された堅牢なパノラマ基盤モデルである。
我々はパノラマ画像を視点パッチに投影し、正確なドメインギャップのない擬似ラベルを生成する。
タスクタイプ間の干渉に対処するため、タスクを回転不変群と回転不変群に分類する。
- 参考スコア(独自算出の注目度): 42.124623200906626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive panoramic scene understanding is critical for immersive applications, yet it remains challenging due to the scarcity of high-resolution, multi-task annotations. While perspective foundation models have achieved success through data scaling, directly adapting them to the panoramic domain often fails due to severe geometric distortions and coordinate system discrepancies. Furthermore, the underlying relations between diverse dense prediction tasks in spherical spaces are underexplored. To address these challenges, we propose MTPano, a robust multi-task panoramic foundation model established by a label-free training pipeline. First, to circumvent data scarcity, we leverage powerful perspective dense priors. We project panoramic images into perspective patches to generate accurate, domain-gap-free pseudo-labels using off-the-shelf foundation models, which are then re-projected to serve as patch-wise supervision. Second, to tackle the interference between task types, we categorize tasks into rotation-invariant (e.g., depth, segmentation) and rotation-variant (e.g., surface normals) groups. We introduce the Panoramic Dual BridgeNet, which disentangles these feature streams via geometry-aware modulation layers that inject absolute position and ray direction priors. To handle the distortion from equirectangular projections (ERP), we incorporate ERP token mixers followed by a dual-branch BridgeNet for interactions with gradient truncation, facilitating beneficial cross-task information sharing while blocking conflicting gradients from incompatible task attributes. Additionally, we introduce auxiliary tasks (image gradient, point map, etc.) to fertilize the cross-task learning process. Extensive experiments demonstrate that MTPano achieves state-of-the-art performance on multiple benchmarks and delivers competitive results against task-specific panoramic specialist foundation models.
- Abstract(参考訳): 総合的なパノラマシーン理解は没入型アプリケーションには不可欠であるが、高解像度のマルチタスクアノテーションが不足しているため、依然として困難である。
パースペクティブ・ファンデーション・モデルはデータのスケーリングによって成功したが、パノラマ領域への直接適応は、厳密な幾何学的歪みと座標系の違いのために失敗することが多い。
さらに、球面空間における多彩な密度予測タスクの基盤となる関係について検討する。
これらの課題に対処するために,ラベルフリートレーニングパイプラインによって確立された堅牢なマルチタスクパノラマ基盤モデルであるMTPanoを提案する。
まず、データの不足を回避するために、強力な視点の高密度な事前情報を活用します。
我々はパノラマ画像を視点パッチに投影し、オフザシェルフ基礎モデルを用いて正確なドメインギャップのない擬似ラベルを生成する。
第2に,タスクタイプ間の干渉に対処するために,タスクを回転不変群(例えば,深度,セグメンテーション)と回転不変群(例えば,表面正規化)に分類する。
パノラマデュアルブリッジネットは, 絶対位置と光線方向を予め注入する幾何学的変調層を介して, これらの特徴ストリームをアンタングル化する。
等角射影(ERP)からの歪みに対処するため,ERPトークンミキサーとデュアルブランチBridgeNetを併用し,非互換なタスク属性からグラデーションの衝突をブロックしながら,最適なクロスタスク情報共有を容易にする。
さらに,クロスタスク学習プロセスの肥大化のために補助的なタスク(画像勾配,点マップなど)を導入する。
大規模な実験により、MTPanoは複数のベンチマークで最先端のパフォーマンスを達成し、タスク固有のパノラマ専門家基盤モデルと競合する結果をもたらすことが示された。
関連論文リスト
- Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [71.82644727907146]
多様な双方向の高密度予測タスクに対して,$underlineComP$lementary $underlinetr$ansformer, $textbfComPtr$を提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。