論文の概要: Revealing the Semantic Selection Gap in DINOv3 through Training-Free Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2602.07550v1
- Date: Sat, 07 Feb 2026 13:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.688108
- Title: Revealing the Semantic Selection Gap in DINOv3 through Training-Free Few-Shot Segmentation
- Title(参考訳): トレーニングフリーFew-ShotセグメンテーションによるDINOv3のセマンティック選択ギャップの解明
- Authors: Hussni Mohd Zakir, Eric Tatt Wei Ho,
- Abstract要約: 最近の自己監督型視覚変換器(ViT)は、高密度視覚タスクのためのリッチな特徴表現を提供する。
本研究では,フリーベースラインによる凍結DINOv3特徴の少数ショットセマンティックセマンティックセマンティックセマンティクス機能について検討した。
我々はOracleが指導する層解析を行い、標準的な最終層の特徴とグローバルに最適な中間表現との間の大きなパフォーマンスギャップを識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent self-supervised Vision Transformers (ViTs), such as DINOv3, provide rich feature representations for dense vision tasks. This study investigates the intrinsic few-shot semantic segmentation (FSS) capabilities of frozen DINOv3 features through a training-free baseline, FSSDINO, utilizing class-specific prototypes and Gram-matrix refinement. Our results across binary, multi-class, and cross-domain (CDFSS) benchmarks demonstrate that this minimal approach, applied to the final backbone layer, is highly competitive with specialized methods involving complex decoders or test-time adaptation. Crucially, we conduct an Oracle-guided layer analysis, identifying a significant performance gap between the standard last-layer features and globally optimal intermediate representations. We reveal a "Safest vs. Optimal" dilemma: while the Oracle proves higher performance is attainable, matching the results of compute-intensive adaptation methods, current unsupervised and support-guided selection metrics consistently yield lower performance than the last-layer baseline. This characterizes a "Semantic Selection Gap" in Foundation Models, a disconnect where traditional heuristics fail to reliably identify high-fidelity features. Our work establishes the "Last-Layer" as a deceptively strong baseline and provides a rigorous diagnostic of the latent semantic potentials in DINOv3.The code is publicly available at https://github.com/hussni0997/fssdino.
- Abstract(参考訳): 最近のDINOv3のような自己監督型視覚変換器(ViT)は、高密度視覚タスクのためのリッチな特徴表現を提供する。
本研究は,DINOv3 のフリーベースラインである FSSDINO を用いて,クラス固有のプロトタイプとGram-matrix の改良を生かした,本質的な小ショットセマンティックセマンティックセマンティックセマンティックセグメンテーション(FSS)機能について検討した。
この最小限のアプローチは、最終バックボーン層に適用され、複雑なデコーダやテスト時間適応を含む特殊な手法と非常に競合することを示した。
重要なことは、Oracleが指導する層解析を行い、標準的な最終層の特徴とグローバルに最適な中間表現との間の大きなパフォーマンスギャップを識別する。
Oracleは高いパフォーマンスが達成可能であることを証明していますが、計算集約型の適用方法の結果と一致しています。
これはファンデーション・モデルにおいて「セマンティック・セレクション・ギャップ」を特徴付けており、これは伝統的なヒューリスティックが高忠実な特徴を確実に識別できない接続である。
我々の研究は、"Last-Layer"を知覚的に強いベースラインとして確立し、DINOv3の潜伏するセマンティックポテンシャルの厳密な診断を提供しています。
関連論文リスト
- TSE-Net: Semi-supervised Monocular Height Estimation from Single Remote Sensing Images [10.375329759512702]
TSE-Netは半教師付き単分子高さ推定のための自己学習パイプラインである。
パイプラインは教師、学生、試験ネットワークを統合している。
提案したパイプラインを,解像度の異なる3つのデータセットで評価し,画像のモダリティを評価する。
論文 参考訳(メタデータ) (2025-11-17T16:22:38Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Improving Open-Set Semantic Segmentation in 3D Point Clouds by Conditional Channel Capacity Maximization: Preliminary Results [1.1328543389752008]
オープンセットセマンティック(O3S)のためのプラグアンドプレイフレームワークを提案する。
セグメンテーションパイプラインを条件付きマルコフ連鎖としてモデル化することにより、条件付きチャネル容量最大化(3CM)と呼ばれる新しい正規化器項を導出する。
3CMは,エンコーダがよりリッチでラベルに依存した機能を維持することを奨励し,従来見つからなかったカテゴリを識別・分割するネットワークの能力を向上することを示す。
論文 参考訳(メタデータ) (2025-05-09T04:12:26Z) - Hybrid Multi-Stage Learning Framework for Edge Detection: A Survey [0.0]
本稿では,CNN(Convolutional Neural Network)機能抽出とSVM(Support Vector Machine)を統合したハイブリッド多段階学習フレームワークを提案する。
提案手法は特徴表現と分類段階を分離し,堅牢性と解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T13:06:31Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。