論文の概要: SynthGenNet: a self-supervised approach for test-time generalization using synthetic multi-source domain mixing of street view images
- arxiv url: http://arxiv.org/abs/2509.02287v1
- Date: Tue, 02 Sep 2025 13:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.035218
- Title: SynthGenNet: a self-supervised approach for test-time generalization using synthetic multi-source domain mixing of street view images
- Title(参考訳): SynthGenNet:ストリートビュー画像の合成マルチソースドメイン混合を用いたテスト時間一般化のための自己教師型アプローチ
- Authors: Pushpendra Dhakara, Prachi Chachodhia, Vaibhav Kumar,
- Abstract要約: テスト時間領域の堅牢な一般化を実現するための自己教師型学生-教員アーキテクチャであるSynthGenNetを紹介する。
私たちのコントリビューションには、さまざまな合成ソースからラベル付きデータをブレンドする新しいClassMix++アルゴリズムが含まれています。
実世界のデータセット上で50%の平均区間-Over-Union(mIoU)値を達成することにより、私たちのモデルは最先端(単一ソースで参照)よりも優れています。
- 参考スコア(独自算出の注目度): 8.23277995673829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unstructured urban environments present unique challenges for scene understanding and generalization due to their complex and diverse layouts. We introduce SynthGenNet, a self-supervised student-teacher architecture designed to enable robust test-time domain generalization using synthetic multi-source imagery. Our contributions include the novel ClassMix++ algorithm, which blends labeled data from various synthetic sources while maintaining semantic integrity, enhancing model adaptability. We further employ Grounded Mask Consistency Loss (GMC), which leverages source ground truth to improve cross-domain prediction consistency and feature alignment. The Pseudo-Label Guided Contrastive Learning (PLGCL) mechanism is integrated into the student network to facilitate domain-invariant feature learning through iterative knowledge distillation from the teacher network. This self-supervised strategy improves prediction accuracy, addresses real-world variability, bridges the sim-to-real domain gap, and reliance on labeled target data, even in complex urban areas. Outcomes show our model outperforms the state-of-the-art (relying on single source) by achieving 50% Mean Intersection-Over-Union (mIoU) value on real-world datasets like Indian Driving Dataset (IDD).
- Abstract(参考訳): 非構造的な都市環境は、その複雑で多様なレイアウトのため、シーン理解と一般化に固有の課題を呈している。
我々は,SynthGenNetを紹介した。SynthGenNetは,総合的マルチソース画像を用いた堅牢なテスト時間領域の一般化を実現するために設計された,自己教師型学生-教員アーキテクチャである。
このアルゴリズムは、セマンティックな整合性を維持しながら、様々な合成源からのラベル付きデータをブレンドし、モデル適応性を向上させる。
我々はさらに、情報源の真理を利用して、ドメイン間の予測整合性と特徴整合性を改善するグラウンドドマスク整合損失(GMC)を採用する。
The Pseudo-Label Guided Contrastive Learning (PLGCL) mechanism is integrated into the student network to help domain-invariant feature learning through iterative knowledge distillation from the teacher network。
この自己監督型戦略は、予測精度を改善し、現実世界の変動に対処し、シム・トゥ・リアルの領域ギャップを橋渡しし、複雑な都市部においても、ラベル付き対象データに依存する。
結果から、私たちのモデルは、インド運転データセット(IDD)のような実世界のデータセット上で、50%の平均インターセクション・オーバー・ユニオン(mIoU)値を達成することで、最先端(単一ソースで参照)よりも優れています。
関連論文リスト
- Transfer Learning Under High-Dimensional Network Convolutional Regression Model [20.18595334666282]
ネットワーク畳み込み回帰(NCR)に基づく高次元移動学習フレームワークを提案する。
提案手法は、ソースとターゲットネットワーク間のドメインシフトに対処する2段階の転送学習アルゴリズムを含む。
Sina Weiboデータを用いたシミュレーションや実世界のアプリケーションを含む経験的評価は、予測精度を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-04-28T16:52:28Z) - FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition [8.444515700910879]
フェデレートされた学習により、分散化されたクライアントは、すべてのトレーニングデータをローカルに保ちながら、共有モデルを共同で学習することができる。
本稿では,異なるタイプの複数の画像群を特徴とする非IIDデータ環境の課題に対処する。
本稿では、潜在空間を分離し、個々のクライアントグループに適したデコーダブランチを構築するFissionVAEを紹介する。
論文 参考訳(メタデータ) (2024-08-30T08:22:30Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - GenURL: A General Framework for Unsupervised Representation Learning [58.59752389815001]
教師なし表現学習(URL)は、教師なしの高次元データのコンパクトな埋め込みを学習する。
本稿では,様々なURLタスクにスムーズに適応可能な類似性ベースの統合URLフレームワークGenURLを提案する。
実験により、GenURLは、自己教師付き視覚学習、無教師付き知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-27T16:24:39Z) - Exploring Data Aggregation and Transformations to Generalize across
Visual Domains [0.0]
この論文は、ドメイン一般化(DG)、ドメイン適応(DA)およびそれらのバリエーションの研究に寄与する。
本稿では,機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。
提案手法が確立したDGおよびDAベンチマークにおいて,最先端の競争的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-20T14:58:14Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。