論文の概要: Image Translation with Kernel Prediction Networks for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.08554v1
- Date: Fri, 11 Jul 2025 12:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.363104
- Title: Image Translation with Kernel Prediction Networks for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのカーネル予測ネットワークを用いた画像翻訳
- Authors: Cristina Mata, Michael S. Ryoo, Henrik Turbell,
- Abstract要約: Domain Adversarial Kernel Prediction Networkは、合成ラベルと翻訳のセマンティックマッチングを保証する。
DA-KPNは、実画像ラベルへのアクセスが制限されたセマンティックセグメンテーションのためのSyn2realベンチマークにおいて、従来のGANベースの手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.009158106709805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation relies on many dense pixel-wise annotations to achieve the best performance, but owing to the difficulty of obtaining accurate annotations for real world data, practitioners train on large-scale synthetic datasets. Unpaired image translation is one method used to address the ensuing domain gap by generating more realistic training data in low-data regimes. Current methods for unpaired image translation train generative adversarial networks (GANs) to perform the translation and enforce pixel-level semantic matching through cycle consistency. These methods do not guarantee that the semantic matching holds, posing a problem for semantic segmentation where performance is sensitive to noisy pixel labels. We propose a novel image translation method, Domain Adversarial Kernel Prediction Network (DA-KPN), that guarantees semantic matching between the synthetic label and translation. DA-KPN estimates pixel-wise input transformation parameters of a lightweight and simple translation function. To ensure the pixel-wise transformation is realistic, DA-KPN uses multi-scale discriminators to distinguish between translated and target samples. We show DA-KPN outperforms previous GAN-based methods on syn2real benchmarks for semantic segmentation with limited access to real image labels and achieves comparable performance on face parsing.
- Abstract(参考訳): セマンティックセグメンテーションは、最高のパフォーマンスを達成するために多くの高密度なピクセル単位のアノテーションに依存しているが、実世界のデータに対する正確なアノテーションを得るのが難しいため、実践者は大規模な合成データセットを訓練する。
未ペア画像変換は、低データレシエーションにおけるより現実的なトレーニングデータを生成することによって、続く領域ギャップに対処するために用いられる方法の1つである。
画像翻訳の非ペア化手法は,GAN(Generative Adversarial Network)を訓練して翻訳を行い,サイクル整合性を通じて画素レベルのセマンティックマッチングを強制する。
これらの手法はセマンティックマッチングが成り立つことを保証せず、ノイズの多いピクセルラベルに性能が敏感なセマンティックセグメンテーションの問題を提起する。
本稿では,合成ラベルと翻訳のセマンティックマッチングを保証する,新しい画像変換手法であるDomain Adversarial Kernel Prediction Network (DA-KPN)を提案する。
DA-KPNは軽量かつ単純な翻訳関数の画素単位の入力変換パラメータを推定する。
画素変換が現実的であることを保証するため、DA-KPNは多スケールの識別器を使用して、翻訳されたサンプルと対象サンプルを区別する。
DA-KPNは,実画像ラベルへのアクセスが制限されたセマンティックセグメンテーションのためのSyn2realベンチマークにおいて,従来のGANベースの手法よりも優れた性能を示し,顔解析における同等のパフォーマンスを実現する。
関連論文リスト
- Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning [2.9603070411207644]
Diffusion Transformers (DiT) は画像から画像への変換のための拡散ベースのフレームワークである。
DiTは拡散モデルのデノナイジング能力と変換器のグローバルなモデリング能力を組み合わせる。
実際の顔を漫画風のイラストに翻訳する face2comics と、エッジマップをリアルなシューズイメージに変換する edges2shoe の2つのベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-21T20:37:33Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Masked Discriminators for Content-Consistent Unpaired Image-to-Image
Translation [1.3654846342364308]
画像から画像への変換の欠如の共通のゴールは、ソース画像と翻訳画像の間のコンテンツ一貫性を維持することである。
コンテンツベースのマスクを用いて、両領域のグローバル識別器の入力をマスキングすることは、コンテンツの不整合を著しく低減するのに十分であることを示す。
実験により,本手法は,光現実的シミュレーショナル翻訳と気象翻訳において,最先端の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-09-22T21:32:07Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic
Segmentation [52.62441404064957]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインでトレーニングされたモデルを利用することで、ラベル付きターゲットドメイン上で満足のいく密度の予測を試みる。
多くの手法は、ノイズの多い擬似ラベルを緩和する傾向があるが、類似のセマンティックな概念を持つクロスドメインピクセル間の固有の接続を無視する。
本稿では,個々の画素のセマンティックな概念を強調する一段階適応フレームワークSePiCoを提案する。
論文 参考訳(メタデータ) (2022-04-19T11:16:29Z) - ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing
Images Semantic Segmentation [15.177834801688979]
アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。
画素レベルのドメインギャップを最小限に抑えるために、DualGANなどの逆生成法が未ペア画像から画像への変換に利用される。
本稿では,RS画像の変換においてResiDualGANを提案する。
論文 参考訳(メタデータ) (2022-01-27T13:56:54Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z) - Semantically Adaptive Image-to-image Translation for Domain Adaptation
of Semantic Segmentation [1.8275108630751844]
街路シーンのセマンティックセグメンテーションにおけるドメイン適応の問題に対処する。
最先端のアプローチの多くは、結果が入力とセマンティックに一致していることを示しながら、ソースイメージの翻訳に重点を置いている。
画像のセマンティクスを利用して翻訳アルゴリズムを導くことも提案する。
論文 参考訳(メタデータ) (2020-09-02T16:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。