論文の概要: Equipping Vision Foundation Model with Mixture of Experts for Out-of-Distribution Detection
- arxiv url: http://arxiv.org/abs/2510.10584v1
- Date: Sun, 12 Oct 2025 13:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.019937
- Title: Equipping Vision Foundation Model with Mixture of Experts for Out-of-Distribution Detection
- Title(参考訳): 分布外検出の専門家の混合による視覚基礎モデルの取得
- Authors: Shizhen Zhao, Jiahui Liu, Xin Wen, Haoru Tan, Xiaojuan Qi,
- Abstract要約: OOD検出のための代表的視覚基盤モデルについて検討する。
事前訓練されたDINOv2モデルは、OOD検出のための高度に識別可能な特徴空間を自然に提供する。
ドメイン内(ID)データの微調整基盤モデルにより、OODの検出が向上する。
サブスペースに分割するMixture of Feature Experts (MoFE) モジュールを提案する。
- 参考スコア(独自算出の注目度): 36.97738113847375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained vision foundation models have transformed many computer vision tasks. Despite their strong ability to learn discriminative and generalizable features crucial for out-of-distribution (OOD) detection, their impact on this task remains underexplored. Motivated by this gap, we systematically investigate representative vision foundation models for OOD detection. Our findings reveal that a pre-trained DINOv2 model, even without fine-tuning on in-domain (ID) data, naturally provides a highly discriminative feature space for OOD detection, achieving performance comparable to existing state-of-the-art methods without requiring complex designs. Beyond this, we explore how fine-tuning foundation models on in-domain (ID) data can enhance OOD detection. However, we observe that the performance of vision foundation models remains unsatisfactory in scenarios with a large semantic space. This is due to the increased complexity of decision boundaries as the number of categories grows, which complicates the optimization process. To mitigate this, we propose the Mixture of Feature Experts (MoFE) module, which partitions features into subspaces, effectively capturing complex data distributions and refining decision boundaries. Further, we introduce a Dynamic-$\beta$ Mixup strategy, which samples interpolation weights from a dynamic beta distribution. This adapts to varying levels of learning difficulty across categories, improving feature learning for more challenging categories. Extensive experiments demonstrate the effectiveness of our approach, significantly outperforming baseline methods.
- Abstract(参考訳): 事前訓練された視覚基盤モデルは、多くのコンピュータビジョンタスクを変換した。
差別的で一般化可能な特徴を学習する能力は、アウト・オブ・ディストリビューション(OOD)の検出に不可欠であるにもかかわらず、この課題に対する彼らの影響は未解明のままである。
このギャップによって、我々はOOD検出のための代表的視覚基盤モデルについて体系的に研究した。
以上の結果から,ドメイン内データ(ID)を微調整することなく,事前学習したDINOv2モデルが,複雑な設計を必要とせずに既存の最先端手法に匹敵する性能を達成し,OOD検出に極めて識別性の高い特徴空間を提供することが明らかとなった。
さらに、ドメイン内(ID)データの微調整基盤モデルによってOODの検出が向上する方法について検討する。
しかし,視覚基盤モデルの性能は,大きな意味空間を持つシナリオでは不満足なままである。
これは、カテゴリの数が増えるにつれて決定境界の複雑さが増し、最適化プロセスが複雑になるためである。
そこで本稿では,この機能をサブスペースに分割し,複雑なデータ分散を効果的にキャプチャし,決定境界を精査する機能エキスパートの混合(MoFE)モジュールを提案する。
さらに、動的ベータ分布から補間重みをサンプリングするDynamic-$\beta$ Mixup戦略を導入する。
これにより、カテゴリ毎に異なるレベルの学習困難に適応し、より困難なカテゴリのフィーチャーラーニングを改善します。
大規模な実験により,本手法の有効性を実証し,ベースライン法を著しく上回る結果を得た。
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble [11.542472900306745]
マルチComprehension (MC) Ensemble は,OOD (Out-of-Distribution) 特徴表現を拡大するための戦略として提案されている。
OOD検出におけるMC Ensemble戦略の優れた性能を示す実験結果を得た。
これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-24T18:43:04Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, バックボーンをトレーニングする利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODサンプルの類似性と、データセットを表すために選択された小さなイメージの例を比較するだけで、強力なOOD検出性能を提供する。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。