論文の概要: Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness
- arxiv url: http://arxiv.org/abs/2506.05917v1
- Date: Fri, 06 Jun 2025 09:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.40506
- Title: Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness
- Title(参考訳): 正確性を超えた半教師付きセグメンテーションの再考:信頼性とロバスト性
- Authors: Steven Landgraf, Markus Hillemann, Markus Ulrich,
- Abstract要約: 信頼性スコア(Reliable Score, RSS)は、予測精度、キャリブレーション、不確実性の測定を調和平均で組み合わせた新しい尺度である。
我々は、半教師付き学習研究と現実世界の展開ニーズをより良く整合させるために、RSSのようなより包括的なメトリクスへの評価プロトコルのシフトを提唱する。
- 参考スコア(独自算出の注目度): 10.220692937750295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is critical for scene understanding but demands costly pixel-wise annotations, attracting increasing attention to semi-supervised approaches to leverage abundant unlabeled data. While semi-supervised segmentation is often promoted as a path toward scalable, real-world deployment, it is astonishing that current evaluation protocols exclusively focus on segmentation accuracy, entirely overlooking reliability and robustness. These qualities, which ensure consistent performance under diverse conditions (robustness) and well-calibrated model confidences as well as meaningful uncertainties (reliability), are essential for safety-critical applications like autonomous driving, where models must handle unpredictable environments and avoid sudden failures at all costs. To address this gap, we introduce the Reliable Segmentation Score (RSS), a novel metric that combines predictive accuracy, calibration, and uncertainty quality measures via a harmonic mean. RSS penalizes deficiencies in any of its components, providing an easy and intuitive way of holistically judging segmentation models. Comprehensive evaluations of UniMatchV2 against its predecessor and a supervised baseline show that semi-supervised methods often trade reliability for accuracy. While out-of-domain evaluations demonstrate UniMatchV2's robustness, they further expose persistent reliability shortcomings. We advocate for a shift in evaluation protocols toward more holistic metrics like RSS to better align semi-supervised learning research with real-world deployment needs.
- Abstract(参考訳): セマンティックセグメンテーションはシーン理解には重要であるが、コストのかかるピクセル単位のアノテーションを必要とするため、豊富なラベルのないデータを活用するための半教師付きアプローチに注目が集まる。
半教師付きセグメンテーションは、スケーラブルで現実的なデプロイメントへの道としてしばしば推奨されるが、現在の評価プロトコルはセグメンテーションの精度にのみ焦点を絞っており、信頼性と堅牢性を完全に見越している。
これらの品質は、さまざまな条件(ロバスト性)とよく校正されたモデルの信頼性、および意味のある不確実性(信頼性)の下で一貫したパフォーマンスを保証するもので、自律運転のような安全クリティカルなアプリケーションには不可欠である。
このギャップに対処するために,予測精度,キャリブレーション,不確実性といった指標を調和平均で組み合わせた新しい尺度であるReliable Segmentation Score(RSS)を導入する。
RSSは各コンポーネントの欠陥を罰し、セグメンテーションモデルを簡単に直感的に判断する方法を提供する。
UniMatchV2 の先駆者と教師付きベースラインに対する総合的な評価は、半教師付き手法がしばしば正確さと信頼性を交換していることを示している。
ドメイン外の評価はUniMatchV2の堅牢性を示しているが、永続的な信頼性の欠点をさらに明らかにしている。
我々は、半教師付き学習研究と現実世界の展開ニーズをより良く整合させるために、RSSのようなより包括的なメトリクスへの評価プロトコルのシフトを提唱する。
関連論文リスト
- Aurora: Are Android Malware Classifiers Reliable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAはさらに、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完されている。
最先端のフレームワークで観察する脆弱さは、ホワイトボードに戻る必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning [26.369237406972577]
視覚中心のセマンティック占有予測は、自律運転において重要な役割を果たす。
カメラからのセマンティック占有率を予測するための信頼性を探求する研究は、まだ少ない。
本稿では,カメラによる占有ネットワークの信頼性向上を目的としたReliOccを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:33:16Z) - The BRAVO Semantic Segmentation Challenge Results in UNCV2024 [68.20197719071436]
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。
その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
論文 参考訳(メタデータ) (2024-09-23T15:17:30Z) - Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers [9.147975682184528]
ディープラーニングモデルの意思決定は、知覚できない摂動に敏感である。
敵攻撃を使用してインスタンス単位でモデルの脆弱性を評価することは、リアルタイムのデプロイメントシナリオには計算集約的であり、適さない。
本稿では,脆弱な試料の効率的な検出のためのマージン整合性の概念を紹介する。
論文 参考訳(メタデータ) (2024-06-26T16:00:35Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。