論文の概要: Training-Free Out-Of-Distribution Segmentation With Foundation Models
- arxiv url: http://arxiv.org/abs/2510.02909v1
- Date: Fri, 03 Oct 2025 11:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.362609
- Title: Training-Free Out-Of-Distribution Segmentation With Foundation Models
- Title(参考訳): 基礎モデルによるアウトオブオフ配信セグメントのトレーニング自由化
- Authors: Laith Nayal, Hadi Salloum, Ahmad Taha, Yaroslav Kholodov, Alexander Gasnikov,
- Abstract要約: 大規模な視覚基盤モデル、例えば、DINOv2、InternImage、CLIPは、多様なタスクをうまく一般化する豊富な機能を提供することで、高度な視覚表現学習を提供する。
我々は、InternImageのバックボーンの機能を活用し、生デコーダログの信頼しきい値とK-Meansクラスタリングを適用して、OoDクラスタを識別する、トレーニング不要なアプローチを提案する。
Intern Image-L を用いた ADE-OoD のベンチマークでは, 平均50.02 精度と48.77 精度を達成し, 教師付きベースラインと教師なしベースラインを超越した。
- 参考スコア(独自算出の注目度): 38.00668980035719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting unknown objects in semantic segmentation is crucial for safety-critical applications such as autonomous driving. Large vision foundation models, includ- ing DINOv2, InternImage, and CLIP, have advanced visual representation learn- ing by providing rich features that generalize well across diverse tasks. While their strength in closed-set semantic tasks is established, their capability to detect out- of-distribution (OoD) regions in semantic segmentation remains underexplored. In this work, we investigate whether foundation models fine-tuned on segmen- tation datasets can inherently distinguish in-distribution (ID) from OoD regions without any outlier supervision. We propose a simple, training-free approach that utilizes features from the InternImage backbone and applies K-Means clustering alongside confidence thresholding on raw decoder logits to identify OoD clusters. Our method achieves 50.02 Average Precision on the RoadAnomaly benchmark and 48.77 on the benchmark of ADE-OoD with InternImage-L, surpassing several supervised and unsupervised baselines. These results suggest a promising direc- tion for generic OoD segmentation methods that require minimal assumptions or additional data.
- Abstract(参考訳): セマンティックセグメンテーションにおける未知のオブジェクトの検出は、自律運転のような安全クリティカルなアプリケーションに不可欠である。
大規模な視覚基盤モデル、例えば、DINOv2、InternImage、CLIPは、多様なタスクをうまく一般化する豊富な機能を提供することで、高度な視覚表現学習を提供する。
閉集合セマンティックタスクにおけるその強みは確立されているが、セマンティックセグメンテーションにおけるオフ・オブ・ディストリビューション(OoD)領域を検出する能力はいまだ解明されていない。
本研究では,Segmen-tationデータセットに微調整された基礎モデルを用いて,OoD領域の内分布(ID)を外部監視なしで本質的に区別できるかどうかを検討する。
我々は、InternImageのバックボーンの機能を活用し、生デコーダログの信頼しきい値とK-Meansクラスタリングを適用して、OoDクラスタを識別する、シンプルなトレーニング不要なアプローチを提案する。
Intern Image-L を用いた ADE-OoD のベンチマークでは, 平均50.02 精度と48.77 精度を達成し, 教師付きベースラインと教師なしベースラインを超越した。
これらの結果は、最小の仮定や追加データを必要とする一般的なOoDセグメンテーション法に期待できるディレクションを示唆している。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Multi-Scale Foreground-Background Confidence for Out-of-Distribution Segmentation [0.36832029288386137]
本研究では,前景-背景セグメントモデルの信頼性情報を利用するマルチスケールOODセグメンテーション手法を提案する。
モデル予測の画素毎の信頼スコアは,前景オブジェクトの画素に対して1に近い。
異なるサイズのパッチに対してこれらの信頼値を集約することにより、さまざまなサイズのオブジェクトを単一のイメージで識別することができる。
論文 参考訳(メタデータ) (2024-12-22T12:09:27Z) - A Likelihood Ratio-Based Approach to Segmenting Unknown Objects [4.000869978312742]
外部監視は、既存のセグメンテーションネットワークのOoD検出を改善するために広く利用されている戦略である。
外部監視のための適応的で軽量な未知推定モジュール(UEM)を提案する。
提案手法は,複数のデータセットにまたがる新たな最先端性を実現し,従来のベストメソッドよりも平均精度5.74%向上した。
論文 参考訳(メタデータ) (2024-09-10T11:10:32Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。