論文の概要: Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation
- arxiv url: http://arxiv.org/abs/2511.22948v1
- Date: Fri, 28 Nov 2025 07:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.807978
- Title: Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation
- Title(参考訳): 完璧なデータが必要か? 領域一般化セグメンテーションのためのノイズの緩和
- Authors: Taeyeong Kim, SeungJoon Lee, Jung Uk Kim, MyeongAh Cho,
- Abstract要約: 本稿では,この制限を頑健な学習機会に変換するフレームワークFLEX-Segを提案する。
5つの実世界のデータセットに対する実験は、最先端の手法よりも一貫した改善を示している。
その結果、不完全な合成データを扱うための適応的戦略が、ドメインの一般化に優れた結果をもたらすことが検証された。
- 参考スコア(独自算出の注目度): 20.89655949578527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization in semantic segmentation faces challenges from domain shifts, particularly under adverse conditions. While diffusion-based data generation methods show promise, they introduce inherent misalignment between generated images and semantic masks. This paper presents FLEX-Seg (FLexible Edge eXploitation for Segmentation), a framework that transforms this limitation into an opportunity for robust learning. FLEX-Seg comprises three key components: (1) Granular Adaptive Prototypes that captures boundary characteristics across multiple scales, (2) Uncertainty Boundary Emphasis that dynamically adjusts learning emphasis based on prediction entropy, and (3) Hardness-Aware Sampling that progressively focuses on challenging examples. By leveraging inherent misalignment rather than enforcing strict alignment, FLEX-Seg learns robust representations while capturing rich stylistic variations. Experiments across five real-world datasets demonstrate consistent improvements over state-of-the-art methods, achieving 2.44% and 2.63% mIoU gains on ACDC and Dark Zurich. Our findings validate that adaptive strategies for handling imperfect synthetic data lead to superior domain generalization. Code is available at https://github.com/VisualScienceLab-KHU/FLEX-Seg.
- Abstract(参考訳): セマンティックセグメンテーションにおけるドメインの一般化は、特に悪条件下で、ドメインシフトからの課題に直面している。
拡散に基づくデータ生成手法は将来性を示すが、生成した画像とセマンティックマスクの間に固有のミスアライメントを導入する。
本稿では,FLEX-Seg(FLexible Edge eXploitation for Segmentation)を提案する。
FLEX-Segは,(1)複数のスケールの境界特性を捉える粒度適応型プロトタイプ,(2)予測エントロピーに基づく学習強調を動的に調整する不確実性境界強調,(3)難解な例に徐々に焦点を絞るハードネス・アウェアサンプリングの3つの重要な構成要素から構成される。
FLEX-Segは厳密なアライメントを強制するのではなく、固有のミスアライメントを活用することで、リッチなスタイリスティックなバリエーションを捉えながら、堅牢な表現を学習する。
5つの実世界のデータセットに対する実験は、最先端の手法よりも一貫した改善を示し、ACDCとダークチューリッヒで2.44%と2.63%のmIoUゲインを達成した。
その結果、不完全な合成データを扱うための適応的戦略が、ドメインの一般化に優れた結果をもたらすことが検証された。
コードはhttps://github.com/VisualScienceLab-KHU/FLEX-Segで入手できる。
関連論文リスト
- Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Statistically-Guided Dual-Domain Meta-Learning with Adaptive Multi-Prototype Aggregation for Distributed Fiber Optic Sensing [11.719957656139824]
本稿では,DFOS 活動識別のための新しいメタ学習フレームワーク DUPLE を提案する。
まず、デュアルドメインのマルチプロトタイプ学習者が時間領域と周波数領域の特徴を融合させ、信号分散シフト下でのモデルの一般化能力を向上する。
第二に、統計ガイドネットワーク(SGN)は、生の統計的特徴からドメインの重要性とプロトタイプの感度を推定し、ラベルのないドメインや目に見えないドメインで学習するためのデータ駆動の事前情報を提供する。
第3に、クエリ対応プロトタイプアグリゲーションモジュールは、関連するプロトタイプを適応的に選択・結合し、限られたデータであっても分類性能を向上させる。
論文 参考訳(メタデータ) (2025-11-22T03:39:13Z) - Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift [62.50795372173394]
我々は,ライダーポイント雲のセマンティックセグメンテーションのための教師なし領域適応において,視覚基盤モデル(VFM)を利用したレシピの同定を行う。
その結果、パイプラインは4つの広く認識され、困難な設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-21T17:57:43Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets [24.242460774158463]
一般化歩行認識は、多様な領域にわたる堅牢なパフォーマンスを実現することを目的としている。
混合データセットトレーニングは一般化を高めるために広く利用されている。
クロスドメイン歩行認識を体系的に改善する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T06:46:09Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。