論文の概要: Through the Looking Glass: A Dual Perspective on Weakly-Supervised Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2508.16159v1
- Date: Fri, 22 Aug 2025 07:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.292901
- Title: Through the Looking Glass: A Dual Perspective on Weakly-Supervised Few-Shot Segmentation
- Title(参考訳): 見た目のガラスを通して:弱めに監督されたFew-Shotセグメンテーションの2つの視点
- Authors: Jiaqi Ma, Guo-Sen Xie, Fang Zhao, Zechao Li,
- Abstract要約: メタラーニングは、同じカテゴリと類似属性を特徴とする均一なサポートクエリペアを均一にサンプリングすることを目的としている。
この同一のネットワーク設計は、過剰なセマンティックな均質化をもたらす。
本稿では,相補性を向上し,意味的共通性を維持するための,新しい異種ネットワークを提案する。
弱教師付き少ショットセマンティックセグメンテーション(WFSS)タスクでは、TLGはPascal-5textsuperscriptiで13.2%、COCO-20textsuperscriptiで9.7%改善している。
- 参考スコア(独自算出の注目度): 46.635612270422655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-learning aims to uniformly sample homogeneous support-query pairs, characterized by the same categories and similar attributes, and extract useful inductive biases through identical network architectures. However, this identical network design results in over-semantic homogenization. To address this, we propose a novel homologous but heterogeneous network. By treating support-query pairs as dual perspectives, we introduce heterogeneous visual aggregation (HA) modules to enhance complementarity while preserving semantic commonality. To further reduce semantic noise and amplify the uniqueness of heterogeneous semantics, we design a heterogeneous transfer (HT) module. Finally, we propose heterogeneous CLIP (HC) textual information to enhance the generalization capability of multimodal models. In the weakly-supervised few-shot semantic segmentation (WFSS) task, with only 1/24 of the parameters of existing state-of-the-art models, TLG achieves a 13.2\% improvement on Pascal-5\textsuperscript{i} and a 9.7\% improvement on COCO-20\textsuperscript{i}. To the best of our knowledge, TLG is also the first weakly supervised (image-level) model that outperforms fully supervised (pixel-level) models under the same backbone architectures. The code is available at https://github.com/jarch-ma/TLG.
- Abstract(参考訳): メタラーニングの目的は、同一のカテゴリと類似の属性を特徴とする均一なサポートクエリ対を均一にサンプリングし、同一のネットワークアーキテクチャを通して有用な帰納バイアスを抽出することである。
しかし、この同一のネットワーク設計は、過剰なセマンティックな均質化をもたらす。
そこで本研究では,新しい同種ネットワークを提案する。
サポートクエリペアを双対的な視点として扱うことにより、意味的共通性を維持しながら相補性を高めるために、異種視覚アグリゲーション(HA)モジュールを導入する。
さらにセマンティックノイズを低減し、不均一なセマンティクスの特異性を増幅するために、ヘテロジニアストランスファー(HT)モジュールを設計する。
最後に,多モードモデルの一般化能力を高めるために,不均一なCLIP(HC)テキスト情報を提案する。
既存の最先端モデルのパラメータの1/24しか持たないWFSSタスクでは、TLGはPascal-5\textsuperscript{i}で13.2\%、COCO-20\textsuperscript{i}で9.7\%改善した。
我々の知る限りでは、TLGは、同じバックボーンアーキテクチャの下で完全に教師付き(ピクセルレベルの)モデルを上回る、最初の弱い教師付き(イメージレベルの)モデルである。
コードはhttps://github.com/jarch-ma/TLG.comで公開されている。
関連論文リスト
- DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification [37.61695934257133]
微粒な識別的詳細とグローバルな意味的特徴は、人物の再識別の課題の解決に寄与する。
視覚基礎モデルは局所的なテクスチャのマイニングに優れており、視覚言語モデルは強いグローバルな意味の違いを捉えている。
我々は,textbfDual-textbfRegularized Bidirectional textbfTransformerを用いて,その強みを相乗化するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T06:59:53Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Parameter-free entropy-regularized multi-view clustering with hierarchical feature selection [3.8015092217142237]
AMVFCM-U と AAMVFCM-U の2つの補完アルゴリズムを導入し、統一されたパラメータフリーフレームワークを提供する。
AAMVFCM-Uは最大97%の計算効率向上を実現し、次元を0.45%に減らし、重要なビューの組み合わせを自動的に識別する。
論文 参考訳(メタデータ) (2025-08-07T15:36:59Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Learning Robust Heterogeneous Graph Representations via Contrastive-Reconstruction under Sparse Semantics [13.555683316315683]
マスケードオートエンコーダ(MAE)とコントラスト学習(CL)はグラフ自己教師学習において2つの重要なパラダイムである。
本稿ではヘテロジニアスグラフのための新しい二チャンネル自己教師型学習フレームワークHetCRFを紹介する。
HetCRFは2段階のアグリゲーション戦略を用いて埋め込みセマンティクスを適応し、MAEとCLの両方と互換性がある。
論文 参考訳(メタデータ) (2025-06-07T06:35:42Z) - DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。
近年,表現の伝達性向上のための基礎モデルが提案されている。
DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文 参考訳(メタデータ) (2025-04-22T07:47:06Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Enhancing Representations through Heterogeneous Self-Supervised Learning [61.40674648939691]
本稿では,HSSL(Heterogeneous Self-Supervised Learning)を提案する。
HSSLは、構造的変化を伴わない表現学習方式で、ベースモデルに新しい特徴を付与する。
HSSLは、様々な自己教師型メソッドと互換性があり、様々な下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-08T10:44:05Z) - Histopathology Whole Slide Image Analysis with Heterogeneous Graph
Representation Learning [78.49090351193269]
本稿では,WSI分析のために,異なる種類の核間の相互関係を利用する新しいグラフベースのフレームワークを提案する。
具体的には、WSI を各ノードに "nucleus-type" 属性と各エッジに類似した意味属性を持つ異種グラフとして定式化する。
我々のフレームワークは、様々なタスクに対してかなりのマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-07-09T14:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。