論文の概要: Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2603.05952v1
- Date: Fri, 06 Mar 2026 06:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.188766
- Title: Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation
- Title(参考訳): ビューを統一する: ファウショットセグメンテーションのためのビュー一貫性のあるプロトタイプ学習
- Authors: Hongli Liu, Yu Wang, Shengjie Zhao,
- Abstract要約: ショーショットセグメンテーション(FSS)は、限られた監督力を持つ新しいクラスに一般化する能力において大きな注目を集めている。
本稿では、クラス固有のプロトタイプを洗練するための構造的一貫性と識別をモデル化する統合フレームワークであるVINEを導入することにより、これらの課題に対処する。
- 参考スコア(独自算出の注目度): 23.546777614096424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot segmentation (FSS) has gained significant attention for its ability to generalize to novel classes with limited supervision, yet remains challenged by structural misalignment and cross-view inconsistency under large appearance or viewpoint variations. This paper tackles these challenges by introducing VINE (View-Informed NEtwork), a unified framework that jointly models structural consistency and foreground discrimination to refine class-specific prototypes. Specifically, VINE introduces a spatial-view graph on backbone features, where the spatial graph captures local geometric topology and the view graph connects features from different perspectives to propagate view-invariant structural semantics. To further alleviate foreground ambiguity, we derive a discriminative prior from the support-query feature discrepancy to capture category-specific contrast, which reweights SAM features by emphasizing salient regions and recalibrates backbone activations for improved structural focus. The foreground-enhanced SAM features and structurally enriched ResNet features are progressively integrated through masked cross-attention, yielding class-consistent prototypes used as adaptive prompts for the SAM decoder to generate accurate masks. Extensive experiments on multiple FSS benchmarks validate the effectiveness and robustness of VINE, particularly under challenging scenarios with viewpoint shifts and complex structures. The code is available at https://github.com/HongliLiu1/VINE-main.
- Abstract(参考訳): Few-shot segmentation (FSS) は、限られた監督力を持つ新しいクラスに一般化する能力において大きな注目を集めている。
本稿では,VINE(View-Informed NEtwork)という,クラス固有のプロトタイプを洗練させるために,構造的一貫性と前景の識別を協調的にモデル化する統合フレームワークを導入することで,これらの課題に対処する。
具体的には、VINEはバックボーンの特徴に関する空間ビューグラフを導入し、空間グラフは局所幾何学的トポロジーをキャプチャし、ビューグラフは異なる視点から特徴を結合してビュー不変構造意味論を伝播する。
さらに前景の曖昧さを緩和するため、サポートクエリの特徴的相違から差別的先行を導出し、カテゴリー固有のコントラストを捉え、SAMの特徴を再強調し、構造的焦点を改善するために背骨の活性化を補正する。
前景のSAM機能と構造的に強化されたResNet機能は、マスク付きクロスアテンションを通じて徐々に統合され、SAMデコーダの適応プロンプトとして使用されるクラス一貫性のプロトタイプが正確なマスクを生成する。
複数のFSSベンチマークの大規模な実験は、特に視点シフトや複雑な構造を持つ挑戦的なシナリオにおいて、VINEの有効性と堅牢性を検証する。
コードはhttps://github.com/HongliLiu1/VINE-mainで公開されている。
関連論文リスト
- HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - ConStruct: Structural Distillation of Foundation Models for Prototype-Based Weakly Supervised Histopathology Segmentation [16.733170895296343]
病理組織学におけるWSSS (Weakly supervised semantic segmentation) は分類バックボーンに大きく依存している。
本研究では,CONCHのモルフォロジー認識表現,SegFormerのマルチスケール構造的キュー,テキスト誘導型セマンティックアライメントを統合したプロトタイプ学習フレームワークを提案する。
提案手法は, ピクセルレベルのアノテーションを使わずに高品質な擬似マスクを作製し, 局所化完全性を改善し, 組織タイプ間のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-12-11T06:08:29Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。