論文の概要: Self-Organizing Visual Prototypes for Non-Parametric Representation Learning
- arxiv url: http://arxiv.org/abs/2505.21533v1
- Date: Fri, 23 May 2025 20:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.133083
- Title: Self-Organizing Visual Prototypes for Non-Parametric Representation Learning
- Title(参考訳): 非パラメトリック表現学習のための自己組織型視覚プロトタイプ
- Authors: Thalles Silva, Helio Pedrini, Adín Ramírez Rivera,
- Abstract要約: 本稿では、教師なし視覚特徴学習のための新しい訓練手法である自己組織化視覚プロトタイプ(SOP)を提案する。
この戦略では、プロトタイプは多くの意味論的に類似した表現で表現され、それぞれが補完的な機能のセットを含む組込み(SE)をサポートする。
我々は,SOP戦略を用いて学習した表現を,検索,線形評価,微調整,オブジェクト検出など,様々なベンチマークで評価する。
- 参考スコア(独自算出の注目度): 6.096888891865663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Self-Organizing Visual Prototypes (SOP), a new training technique for unsupervised visual feature learning. Unlike existing prototypical self-supervised learning (SSL) methods that rely on a single prototype to encode all relevant features of a hidden cluster in the data, we propose the SOP strategy. In this strategy, a prototype is represented by many semantically similar representations, or support embeddings (SEs), each containing a complementary set of features that together better characterize their region in space and maximize training performance. We reaffirm the feasibility of non-parametric SSL by introducing novel non-parametric adaptations of two loss functions that implement the SOP strategy. Notably, we introduce the SOP Masked Image Modeling (SOP-MIM) task, where masked representations are reconstructed from the perspective of multiple non-parametric local SEs. We comprehensively evaluate the representations learned using the SOP strategy on a range of benchmarks, including retrieval, linear evaluation, fine-tuning, and object detection. Our pre-trained encoders achieve state-of-the-art performance on many retrieval benchmarks and demonstrate increasing performance gains with more complex encoders.
- Abstract(参考訳): 本稿では、教師なし視覚特徴学習のための新しい訓練手法である自己組織化視覚プロトタイプ(SOP)を提案する。
データ中の隠蔽クラスタのすべての関連機能をエンコードする1つのプロトタイプに依存する既存のプロトタイプ型自己教師学習(SSL)とは異なり、SOP戦略を提案する。
この戦略では、プロトタイプは、多くの意味論的に類似した表現で表現されるか、あるいは組込み(SE)をサポートする。
SOP戦略を実装した2つの損失関数の非パラメトリック適応を導入することで、非パラメトリックSSLの実現可能性を再確認する。
特に,複数の非パラメトリックローカルSEからマスキング表現を再構成するSOP Masked Image Modeling (SOP-MIM)タスクを導入する。
検索,線形評価,微調整,オブジェクト検出など,さまざまなベンチマークでSOP戦略を用いて学習した表現を包括的に評価する。
事前学習したエンコーダは、多くの検索ベンチマークで最先端のパフォーマンスを実現し、より複雑なエンコーダで性能向上を示す。
関連論文リスト
- Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。
RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文 参考訳(メタデータ) (2025-05-03T04:58:29Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。