論文の概要: Adaptive Stylization Modulation for Domain Generalization Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.09347v1
- Date: Tue, 18 Apr 2023 23:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:56:24.723348
- Title: Adaptive Stylization Modulation for Domain Generalization Semantic
Segmentation
- Title(参考訳): ドメイン一般化意味セグメンテーションのための適応的スタイライゼーション変調
- Authors: Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou
- Abstract要約: 本研究はセマンティックセグメンテーションタスクにおける領域一般化の問題に対処する。
ピクセルのセマンティック内容に応じて,各ピクセルのスタイリング強度を変調するモジュールである$ASH_+$を導入する。
また、元のソースドメインの特徴とスタイリングされた特徴の要素ワイドとチャネルワイドの比率をバランスさせるパラメータも導入する。
- 参考スコア(独自算出の注目度): 39.35385886870209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining sufficient labelled data for model training is impractical for most
real-life applications. Therefore, we address the problem of domain
generalization for semantic segmentation tasks to reduce the need to acquire
and label additional data. Recent work on domain generalization increase data
diversity by varying domain-variant features such as colour, style and texture
in images. However, excessive stylization or even uniform stylization may
reduce performance. Performance reduction is especially pronounced for pixels
from minority classes, which are already more challenging to classify compared
to pixels from majority classes. Therefore, we introduce a module, $ASH_{+}$,
that modulates stylization strength for each pixel depending on the pixel's
semantic content. In this work, we also introduce a parameter that balances the
element-wise and channel-wise proportion of stylized features with the original
source domain features in the stylized source domain images. This learned
parameter replaces an empirically determined global hyperparameter, allowing
for more fine-grained control over the output stylized image. We conduct
multiple experiments to validate the effectiveness of our proposed method.
Finally, we evaluate our model on the publicly available benchmark semantic
segmentation datasets (Cityscapes and SYNTHIA). Quantitative and qualitative
comparisons indicate that our approach is competitive with state-of-the-art.
Code is made available at \url{https://github.com/placeholder}
- Abstract(参考訳): モデルトレーニングのための十分なラベル付きデータを得ることは、ほとんどの実生活アプリケーションでは実用的ではない。
そこで我々は,セマンティクスセグメンテーションタスクにおける領域一般化の問題に対処し,追加データの取得とラベル付けの必要性を低減した。
領域一般化に関する最近の研究は、画像における色、スタイル、テクスチャといった様々なドメイン変種の特徴によって、データの多様性を高める。
しかし、過剰なスタイライゼーションや均一なスタイライゼーションは性能を低下させる可能性がある。
パフォーマンスの低下は、マイノリティクラスのピクセルに対して特に顕著であり、多数派クラスのピクセルに比べて、すでに分類が難しい。
そこで本研究では,各画素のスタイライゼーション強度をピクセルの意味的内容に応じて変調するモジュール $ash_{+}$ を導入する。
本研究では,スタイライズドソースドメインイメージにおける元のソースドメイン機能と,スタイライズされた機能の要素別およびチャネル毎の比率をバランスさせるパラメータも導入する。
この学習パラメータは、経験的に決定されたグローバルハイパーパラメータを置き換えることで、出力されたスタイライズされたイメージをより細かく制御することができる。
提案手法の有効性を検証するために複数の実験を行った。
最後に,ベンチマークセマンティックセグメンテーションデータセット(CityscapesおよびSynTHIA)を用いて,本モデルの評価を行った。
定量的・質的比較は,我々のアプローチが最先端のアプローチと競合することを示している。
コードは \url{https://github.com/placeholder} で利用可能である。
関連論文リスト
- Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - S$^2$ME: Spatial-Spectral Mutual Teaching and Ensemble Learning for
Scribble-supervised Polyp Segmentation [21.208071679259604]
本研究では,空間スペクトルデュアルブランチ相互指導とエントロピー誘導擬似ラベルアンサンブル学習の枠組みを開発する。
我々は、アンサンブル学習の有効性を高めるために、信頼度の高い混合擬似ラベルを作成する。
疑似ラベルに存在する不確実性やノイズの有害な影響を効果的に軽減する。
論文 参考訳(メタデータ) (2023-06-01T08:47:58Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Semi-Supervised StyleGAN for Disentanglement Learning [79.01988132442064]
現在の解離法は、いくつかの固有の制限に直面している。
半教師付き高分解能ディスタングル学習のためのStyleGANに基づく新しいアーキテクチャと損失関数を設計する。
論文 参考訳(メタデータ) (2020-03-06T22:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。