論文の概要: SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds
- arxiv url: http://arxiv.org/abs/2505.12155v1
- Date: Sat, 17 May 2025 22:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.067729
- Title: SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds
- Title(参考訳): SoftPQ: ソフトマッチングと可変閾値によるロバストインスタンスセグメンテーション評価
- Authors: Ranit Karmakar, Simon F. Nørrelykke,
- Abstract要約: フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmentation evaluation metrics traditionally rely on binary decision logic: predictions are either correct or incorrect, based on rigid IoU thresholds. Detection--based metrics such as F1 and mAP determine correctness at the object level using fixed overlap cutoffs, while overlap--based metrics like Intersection over Union (IoU) and Dice operate at the pixel level, often overlooking instance--level structure. Panoptic Quality (PQ) attempts to unify detection and segmentation assessment, but it remains dependent on hard-threshold matching--treating predictions below the threshold as entirely incorrect. This binary framing obscures important distinctions between qualitatively different errors and fails to reward gradual model improvements. We propose SoftPQ, a flexible and interpretable instance segmentation metric that redefines evaluation as a graded continuum rather than a binary classification. SoftPQ introduces tunable upper and lower IoU thresholds to define a partial matching region and applies a sublinear penalty function to ambiguous or fragmented predictions. These extensions allow SoftPQ to exhibit smoother score behavior, greater robustness to structural segmentation errors, and more informative feedback for model development and evaluation. Through controlled perturbation experiments, we show that SoftPQ captures meaningful differences in segmentation quality that existing metrics overlook, making it a practical and principled alternative for both benchmarking and iterative model refinement.
- Abstract(参考訳): セグメンテーション評価のメトリクスは伝統的にバイナリな決定ロジックに依存しており、予測は厳格なIoUしきい値に基づいて正しいか間違っている。
F1やmAPのような検出ベースのメトリクスは、固定されたオーバーラップカットオフを使用してオブジェクトレベルでの正確性を決定する一方、IoU(Intersection over Union)やDiceのようなオーバーラップベースのメトリクスはピクセルレベルで動作し、しばしばインスタンスレベルの構造を見渡す。
Panoptic Quality (PQ) は検出とセグメンテーションの評価を統一しようとするが、しきい値以下で処理される予測は、完全に正しくない。
このバイナリフレーミングは、定性的に異なるエラーの間の重要な区別を曖昧にし、段階的なモデル改善に報いることができない。
本稿では,2進分類ではなく次数付き連続体として評価を再定義する,柔軟かつ解釈可能なインスタンスセグメンテーション指標であるSoftPQを提案する。
SoftPQは、調整可能な上下IoU閾値を導入し、部分マッチング領域を定義し、曖昧または断片化された予測にサブ線形ペナルティ関数を適用する。
これらの拡張により、SoftPQはよりスムーズなスコアの振る舞い、構造的セグメンテーションエラーに対する堅牢性、モデルの開発と評価に対するより情報的なフィードバックを示すことができる。
制御された摂動実験により,SoftPQは既存のメトリクスが見落としているセグメンテーション品質の有意義な差異を捉え,ベンチマークと反復モデルの改良の両方に対して実用的で原則的な代替手段であることを示す。
関連論文リスト
- GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis [20.77940776708036]
ペアワイズな順序学習フレームワークは、比較から学ぶことで相対的な順序を捉える。
彼らは全ての比較に均一な重要性を割り当て、ハード・ツー・ランクのサンプルに適応的に焦点をあてることに失敗した。
本稿では,グループ相対的政策最適化の理念を取り入れた二段階群ランク付け・フレームワークを提案する。
GRCFは、コア回帰ベンチマークで最先端のパフォーマンスを達成すると同時に、分類タスクにおいて強力な一般化性を示す。
論文 参考訳(メタデータ) (2026-01-14T16:26:44Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - The Multiclass Score-Oriented Loss (MultiSOL) on the Simplex [4.014524824655106]
教師付きバイナリ分類では、トレーニングフェーズ中に選択したパフォーマンスメトリックを直接最適化する目的でスコア指向の損失が導入された。
本稿では、最近導入された多次元しきい値に基づく分類フレームワークを用いて、スコア指向の損失をマルチクラス分類に拡張する。
いくつかの分類実験でも示されているように、この損失の族は二進法で観測される主な利点を維持するために設計されている。
論文 参考訳(メタデータ) (2025-11-27T16:20:55Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Prototype-Guided Pseudo-Labeling with Neighborhood-Aware Consistency for Unsupervised Adaptation [12.829638461740759]
CLIPのような視覚言語モデルに対する教師なし適応では、ゼロショット予測からの擬似ラベルは大きなノイズを示すことが多い。
本稿では,プロトタイプの整合性と近傍の整合性を統合することで,CLIPの適応性能を向上させる適応型擬似ラベルフレームワークを提案する。
提案手法は、教師なし適応シナリオにおける最先端性能を実現し、計算効率を維持しつつ、より正確な擬似ラベルを提供する。
論文 参考訳(メタデータ) (2025-07-22T19:08:24Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Robust Confinement State Classification with Uncertainty Quantification through Ensembled Data-Driven Methods [39.27649013012046]
本研究では,不確実性定量化とモデルロバスト性を考慮した閉じ込め状態分類法を開発した。
我々は,TV放電のオフライン解析に焦点をあて,Lモード,Hモード,および中間ディザリング位相(D)を区別する。
302TCV放電のデータセットは完全にラベル付けされ、一般公開される。
論文 参考訳(メタデータ) (2025-02-24T18:25:22Z) - Improving action segmentation via explicit similarity measurement [5.303583360581161]
本稿では,セグメント化精度を高めるために,フレーム間および予測間の明らかな類似性評価を提案する。
教師付き学習アーキテクチャでは,トランスフォーマーエンコーダへの入力として,フレームレベルのマルチレゾリューション機能を利用する。
本稿では,連続フレーム間の特徴類似性に基づいた境界補正アルゴリズムを提案する。
また,非教師付き境界検出補正を提案する。
論文 参考訳(メタデータ) (2025-02-15T08:02:38Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Concurrent Misclassification and Out-of-Distribution Detection for
Semantic Segmentation via Energy-Based Normalizing Flow [0.0]
最近のセマンティックセグメンテーションモデルは、トレーニングデータセットの分布に類似したテスト時間例を正確に分類する。
本稿では,正規化フローフレームワークに依存するIDMとOOD検出を同時に行うための生成モデルを提案する。
FlowEneDetは、事前トレーニングされたDeepLabV3+およびSegFormerセマンティックセグメンテーションモデルに適用した場合、IDM/OOD検出におけるCityscapes、Cityscapes-C、FishyScapes、SegmentMeIfYouCanベンチマークの有望な結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T17:02:57Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。