論文の概要: Dual Stage Stylization Modulation for Domain Generalized Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.09347v4
- Date: Thu, 3 Aug 2023 09:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 11:23:44.921112
- Title: Dual Stage Stylization Modulation for Domain Generalized Semantic
Segmentation
- Title(参考訳): ドメイン一般化意味セグメンテーションのための二段スタイライゼーション変調
- Authors: Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou
- Abstract要約: In the Adversarial Semantic Hallucination+ framework。
本手法は,各画素に対する意味情報を活用することにより,画素単位の幻覚強度を適応的に調整する。
提案手法の有効性を,公開されているセマンティックセグメンテーションベンチマークデータセットの総合的な実験により検証する。
- 参考スコア(独自算出の注目度): 39.35385886870209
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Obtaining sufficient labeled data for training deep models is often
challenging in real-life applications. To address this issue, we propose a
novel solution for single-source domain generalized semantic segmentation.
Recent approaches have explored data diversity enhancement using hallucination
techniques. However, excessive hallucination can degrade performance,
particularly for imbalanced datasets. As shown in our experiments, minority
classes are more susceptible to performance reduction due to hallucination
compared to majority classes. To tackle this challenge, we introduce a
dual-stage Feature Transform (dFT) layer within the Adversarial Semantic
Hallucination+ (ASH+) framework. The ASH+ framework performs a dual-stage
manipulation of hallucination strength. By leveraging semantic information for
each pixel, our approach adaptively adjusts the pixel-wise hallucination
strength, thus providing fine-grained control over hallucination. We validate
the effectiveness of our proposed method through comprehensive experiments on
publicly available semantic segmentation benchmark datasets (Cityscapes and
SYNTHIA). Quantitative and qualitative comparisons demonstrate that our
approach is competitive with state-of-the-art methods for the Cityscapes
dataset and surpasses existing solutions for the SYNTHIA dataset. Code for our
framework will be made readily available to the research community.
- Abstract(参考訳): 深層モデルのトレーニングに十分なラベル付きデータを得ることは、現実のアプリケーションではしばしば困難である。
この問題に対処するため,我々は,単一ソース領域一般意味セグメンテーションのための新しい解を提案する。
近年,幻覚技術を用いたデータ多様性向上手法が検討されている。
しかし、過剰な幻覚は、特に不均衡なデータセットのパフォーマンスを低下させる可能性がある。
実験で示したように、マイノリティクラスは多数派クラスに比べて幻覚によるパフォーマンス低下の影響を受けやすい。
この課題に対処するため,Adversarial Semantic Hallucination+ (ASH+) フレームワーク内に2段階のFeature Transform (dFT) 層を導入する。
ASH+フレームワークは幻覚強度の二重ステージ操作を行う。
提案手法は,各画素の意味情報を活用することで,画素毎の幻覚強度を適応的に調整し,幻覚に対するきめ細かい制御を行う。
提案手法の有効性を検証するために,semantic segmentation benchmark datasets (cityscapes and synthia) を用いた総合実験を行った。
定量的および定性的な比較は、我々のアプローチがCityscapesデータセットの最先端の手法と競合し、SynTHIAデータセットの既存のソリューションを上回ることを示している。
私たちのフレームワークのコードは研究コミュニティで簡単に利用できます。
関連論文リスト
- Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - S$^2$ME: Spatial-Spectral Mutual Teaching and Ensemble Learning for
Scribble-supervised Polyp Segmentation [21.208071679259604]
本研究では,空間スペクトルデュアルブランチ相互指導とエントロピー誘導擬似ラベルアンサンブル学習の枠組みを開発する。
我々は、アンサンブル学習の有効性を高めるために、信頼度の高い混合擬似ラベルを作成する。
疑似ラベルに存在する不確実性やノイズの有害な影響を効果的に軽減する。
論文 参考訳(メタデータ) (2023-06-01T08:47:58Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Semi-Supervised StyleGAN for Disentanglement Learning [79.01988132442064]
現在の解離法は、いくつかの固有の制限に直面している。
半教師付き高分解能ディスタングル学習のためのStyleGANに基づく新しいアーキテクチャと損失関数を設計する。
論文 参考訳(メタデータ) (2020-03-06T22:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。