論文の概要: Bridging the Generalization Gap in Adverse Weather Segmentation: A Training Recipe Perspective
- arxiv url: http://arxiv.org/abs/2605.27962v1
- Date: Wed, 27 May 2026 04:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.755672
- Title: Bridging the Generalization Gap in Adverse Weather Segmentation: A Training Recipe Perspective
- Title(参考訳): 逆気象セグメンテーションにおける一般化ギャップのブリッジ:トレーニング・レシピ・パースペクティブ
- Authors: Cong Xu, Pu Luo, Yumei Li, Boyou Xue,
- Abstract要約: 本稿では,5つの気象条件で劣化した屋外シーンのセマンティックセグメンテーションを目的とした第8回UG2ワークショップ(CVPR 2026)トラック2について述べる。
私たちが観察する中心的な課題は、厳密な一般化ギャップです -- 検証セットでうまく機能するモデルは、テストセットでしばしば崩壊します。
アーキテクチャの複雑さよりも、慎重に設計されたトレーニングレシピが、このギャップに対処できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 9.751481477523956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our approach for the 8th UG2+ Workshop (CVPR 2026) Track~2, which targets semantic segmentation of outdoor scenes degraded by five weather conditions: blur, darkness, snow, haze, and glare. A central challenge we observe is a severe generalization gap -- models that perform well on the validation set often collapse on the test set. For instance, SegFormer-B5 drops 16.1 mIoU points from validation to test, suggesting that model capacity alone is insufficient for robustness. We investigate whether a carefully designed training recipe, rather than architectural complexity, can address this gap. Starting from a pre-trained SegMAN-S backbone, we systematically study the effects of domain-adaptive fine-tuning, multi-source data mixing, scene-balanced sampling, and synthetic degradation augmentation. Our final system achieves 59.9\% mIoU on the official test set while maintaining a validation-test gap of only 6.5 points -- less than half that of larger models. We analyze negative results from architectural modifications, loss function variants, and model scaling to provide practical insights for weather-robust segmentation under limited data.
- Abstract(参考訳): 第8回UG2+ワークショップ(CVPR 2026)トラック〜2の取り組みについて述べる。
私たちが観察する中心的な課題は、厳密な一般化ギャップです -- 検証セットでうまく機能するモデルは、テストセットでしばしば崩壊します。
例えば、SegFormer-B5は16.1mIoUポイントを検証からテストに落とし、モデルキャパシティだけでは堅牢性には不十分であることを示唆している。
アーキテクチャの複雑さよりも、慎重に設計されたトレーニングレシピが、このギャップに対処できるかどうかを検討する。
事前学習したSegMAN-Sバックボーンから,ドメイン適応微調整,マルチソースデータ混合,シーンバランスサンプリング,合成劣化増強の効果を系統的に検討した。
最終システムは、公式テストセットで59.9\% mIoUを達成すると同時に、6.5ポイントのバリデーションとテストのギャップを維持します。
本研究では, 構造変更, 損失関数の変種, モデルスケーリングによるネガティブな結果を分析し, 限られたデータの下での耐候性セグメンテーションの実践的洞察を提供する。
関連論文リスト
- CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating [49.94171749437024]
本稿では,ビジョンランゲージモデルに基づく粗大な異常報酬モデルである集中と集中(CaC)を提案する。
フレーム単位のバウンディングボックスアノテーション,時間的異常ウィンドウ,微粒な属性ラベルを備えた,最初の大規模ビデオ異常データセットを構築した。
実験では、CaCは微妙な異常に安定して集中することができ、微細な異常ベンチマークの精度が25.7%向上した。
論文 参考訳(メタデータ) (2026-05-12T08:08:33Z) - Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta [0.0]
メコンデルタにおける無形文化財(ICH)の分類は、ユニークな課題である。
本稿では,ハイブリッドなCoAtNetアーキテクチャをモデルスープに統合する堅牢なフレームワークを提案する。
提案手法は,72.36%のTop-1精度と69.28%のマクロF1スコアを達成し,高いベースラインを達成している。
論文 参考訳(メタデータ) (2026-03-02T18:50:15Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization [17.149024413701014]
Klear-Reasonerは、長い推論能力を持つモデルで、問題解決時に慎重に検討する。
本報告では、学習後のワークフロー全体を網羅した推論モデルの詳細分析を行う。
論文 参考訳(メタデータ) (2025-08-11T05:17:51Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。