論文の概要: Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.02548v1
- Date: Wed, 6 Apr 2022 02:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:13:28.587828
- Title: Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation
- Title(参考訳): 一般化意味セグメンテーションのためのスタイル幻覚二重一貫性学習
- Authors: Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee
- Abstract要約: 本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 117.3856882511919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the task of synthetic-to-real domain generalized
semantic segmentation, which aims to learn a model that is robust to unseen
real-world scenes using only synthetic data. The large domain shift between
synthetic and real-world data, including the limited source environmental
variations and the large distribution gap between synthetic and real-world
data, significantly hinders the model performance on unseen real-world scenes.
In this work, we propose the Style-HAllucinated Dual consistEncy learning
(SHADE) framework to handle such domain shift. Specifically, SHADE is
constructed based on two consistency constraints, Style Consistency (SC) and
Retrospection Consistency (RC). SC enriches the source situations and
encourages the model to learn consistent representation across
style-diversified samples. RC leverages real-world knowledge to prevent the
model from overfitting to synthetic data and thus largely keeps the
representation consistent between the synthetic and real-world models.
Furthermore, we present a novel style hallucination module (SHM) to generate
style-diversified samples that are essential to consistency learning. SHM
selects basis styles from the source distribution, enabling the model to
dynamically generate diverse and realistic samples during training. Experiments
show that our SHADE yields significant improvement and outperforms
state-of-the-art methods by 5.07% and 8.35% on the average mIoU of three
real-world datasets on single- and multi-source settings respectively.
- Abstract(参考訳): 本稿では,合成データのみを用いて,現実のシーンに頑健なモデルを学ぶことを目的とした,合成から現実への一般化セマンティックセマンティックセマンティックセマンティクスの課題について検討する。
合成と実世界のデータ間の大きなドメインシフトは、限られたソース環境の変化や、合成と実世界のデータ間の大きな分散ギャップを含む、目に見えない実世界のシーンでのモデルパフォーマンスを著しく妨げます。
本稿では,このようなドメインシフトを扱うためのスタイル幻覚型2重一貫性学習(shade)フレームワークを提案する。
具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。
SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。
RCは実世界の知識を活用して、モデルが合成データに過度に適合することを防ぐ。
さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。
SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。
実験の結果,SHADEは,実世界の3つのデータセットの平均mIoUに対してそれぞれ5.07%,8.35%向上し,最先端の手法よりも優れていた。
関連論文リスト
- Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文 参考訳(メタデータ) (2023-08-15T08:49:14Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - HaDR: Applying Domain Randomization for Generating Synthetic Multimodal
Dataset for Hand Instance Segmentation in Cluttered Industrial Environments [0.0]
本研究では、ドメインランダム化を用いて、マルチモーダルインスタンスセグメンテーションモデルのトレーニングのための合成RGB-Dデータセットを生成する。
提案手法により,既存の最先端データセットでトレーニングしたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-04-12T13:02:08Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。