論文の概要: 360SFUDA++: Towards Source-free UDA for Panoramic Segmentation by Learning Reliable Category Prototypes
- arxiv url: http://arxiv.org/abs/2404.16501v1
- Date: Thu, 25 Apr 2024 10:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:59:41.166074
- Title: 360SFUDA++: Towards Source-free UDA for Panoramic Segmentation by Learning Reliable Category Prototypes
- Title(参考訳): 360SFUDA++:信頼性の高いカテゴリプロトタイプ学習によるパノラマセグメンテーションのためのソースフリー UDA の実現
- Authors: Xu Zheng, Pengyuan Zhou, Athanasios V. Vasilakos, Lin Wang,
- Abstract要約: ピンホール-パノラマセマンティックセマンティックセマンティックセグメンテーションのための難解なソースフリーな教師なしドメイン適応(SFUDA)について検討する。
360SFUDA++は、未ラベルのパノラマ画像のみを用いて、ソースピンホールモデルから知識を効果的に抽出する。
- 参考スコア(独自算出の注目度): 15.367186190755003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenging source-free unsupervised domain adaptation (SFUDA) for pinhole-to-panoramic semantic segmentation, given only a pinhole image pre-trained model (i.e., source) and unlabeled panoramic images (i.e., target). Tackling this problem is non-trivial due to three critical challenges: 1) semantic mismatches from the distinct Field-of-View (FoV) between domains, 2) style discrepancies inherent in the UDA problem, and 3) inevitable distortion of the panoramic images. To tackle these problems, we propose 360SFUDA++ that effectively extracts knowledge from the source pinhole model with only unlabeled panoramic images and transfers the reliable knowledge to the target panoramic domain. Specifically, we first utilize Tangent Projection (TP) as it has less distortion and meanwhile slits the equirectangular projection (ERP) to patches with fixed FoV projection (FFP) to mimic the pinhole images. Both projections are shown effective in extracting knowledge from the source model. However, as the distinct projections make it less possible to directly transfer knowledge between domains, we then propose Reliable Panoramic Prototype Adaptation Module (RP2AM) to transfer knowledge at both prediction and prototype levels. RP$^2$AM selects the confident knowledge and integrates panoramic prototypes for reliable knowledge adaptation. Moreover, we introduce Cross-projection Dual Attention Module (CDAM), which better aligns the spatial and channel characteristics across projections at the feature level between domains. Both knowledge extraction and transfer processes are synchronously updated to reach the best performance. Extensive experiments on the synthetic and real-world benchmarks, including outdoor and indoor scenarios, demonstrate that our 360SFUDA++ achieves significantly better performance than prior SFUDA methods.
- Abstract(参考訳): 本稿では,ピンホールからパノラマのセマンティックセマンティックセマンティックセグメンテーションに対して,ピンホール画像事前学習モデル (ソース) と未ラベルパノラマ画像 (ターゲット) のみを前提とした,難解なソースフリーな教師なしドメイン適応 (SFUDA) を提案する。
この問題に取り組むのは3つの重要な課題のために簡単ではない。
1)ドメイン間のフィールド・オブ・ビュー(FoV)のセマンティックミスマッチ。
2 UDA問題に固有の様式の相違
3) パノラマ画像の歪みは避けられない。
このような問題に対処するために,未ラベルのパノラマ画像のみを用いてソースピンホールモデルから知識を効果的に抽出し,信頼性の高い知識を対象パノラマ領域に転送する360SFUDA++を提案する。
具体的には、歪みが少ないため、まずTangent Projection(TP)を使用し、一方、固定されたFoVプロジェクション(FFP)でパッチに等方形プロジェクション(ERP)をスリットしてピンホール画像を模倣する。
どちらのプロジェクションも、ソースモデルから知識を抽出するのに効果的である。
しかし、ドメイン間の知識の直接転送が困難になるため、予測レベルとプロトタイプレベルの両方で知識の転送を行うために、Reliable Panoramic Prototype Adaptation Module (RP2AM)を提案する。
RP$^2$AMは自信のある知識を選択し、信頼できる知識適応のためのパノラマプロトタイプを統合する。
さらに,クロスプロジェクションデュアルアテンションモジュール (CDAM) を導入し,領域間の特徴レベルにおけるプロジェクション間の空間特性とチャネル特性の整合性を向上する。
知識抽出と転送プロセスは同期的に更新され、最高のパフォーマンスに達する。
屋外シナリオや屋内シナリオを含む、合成および実世界のベンチマークに関する大規模な実験は、私たちの360SFUDA++が従来のSFUDAメソッドよりもはるかに優れたパフォーマンスを実現していることを示している。
関連論文リスト
- Multi-source Domain Adaptation for Panoramic Semantic Segmentation [22.367890439050786]
パノラマ的セマンティックセグメンテーションのためのマルチソースドメイン適応のための新しいタスクを提案する。
本研究の目的は, 実際のピンホール合成パノラマ画像の両方をソース領域で活用することであり, セグメンテーションモデルが未ラベルの実際のパノラマ画像に対して良好に動作できるようにすることである。
DTA4PASSはソースドメインのすべてのピンホール画像をパノラマのようなイメージに変換し、変換されたソースドメインをターゲットドメインに整列させる。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Semantics, Distortion, and Style Matter: Towards Source-free UDA for Panoramic Segmentation [15.367186190755003]
本稿では、ピンホールからパノラマのセマンティックセマンティックセグメンテーションのための、ソースフリーな教師なしドメイン適応(SFUDA)の問題に対処する。
この問題に取り組むことは、意味的ミスマッチ、スタイルの相違、パノラマ画像の避けられない歪みのため、簡単ではない。
本稿では,Tangent Projection (TP) を用いて歪みを小さくし,固定されたFoVで正方形投影(ERP)をスリットしてピンホール画像を模倣する手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:11:53Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Both Style and Distortion Matter: Dual-Path Unsupervised Domain
Adaptation for Panoramic Semantic Segmentation [4.566642023113164]
シーン理解能力はパノラマ画像セマンティックセグメンテーションの活発な研究のきっかけとなった。
等角射影(ERP)とピンホール像を等しく扱い、ピンホールから教師なし領域適応(UDA)を介してERP画像へ知識を伝達する研究もある。
本稿では,ERPおよびTP(タンジェントプロジェクション)画像を入力として用いた,フレキシブルでフレキシブルなデュアルパスUDAフレームワークDPPASSを提案する。
論文 参考訳(メタデータ) (2023-03-25T04:57:45Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - Transfer beyond the Field of View: Dense Panoramic Semantic Segmentation
via Unsupervised Domain Adaptation [30.104947024614127]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
DensePASSはドメイン横断条件下でのパノラマセグメンテーションのための新しいデータセットである。
P2PDAはPinhole-to-Panoramicセマンティックセグメンテーションのための汎用フレームワークである。
論文 参考訳(メタデータ) (2021-10-21T11:22:05Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。