論文の概要: Semantic Concentration for Self-Supervised Dense Representations Learning
- arxiv url: http://arxiv.org/abs/2509.09429v1
- Date: Thu, 11 Sep 2025 13:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.392929
- Title: Semantic Concentration for Self-Supervised Dense Representations Learning
- Title(参考訳): 自己監督型感性表現学習のための意味集中
- Authors: Peisong Wen, Qianqian Xu, Siran Dai, Runmin Cong, Qingming Huang,
- Abstract要約: イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
- 参考スコア(独自算出の注目度): 103.10708947415092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image-level self-supervised learning (SSL) have made significant progress, yet learning dense representations for patches remains challenging. Mainstream methods encounter an over-dispersion phenomenon that patches from the same instance/category scatter, harming downstream performance on dense tasks. This work reveals that image-level SSL avoids over-dispersion by involving implicit semantic concentration. Specifically, the non-strict spatial alignment ensures intra-instance consistency, while shared patterns, i.e., similar parts of within-class instances in the input space, ensure inter-image consistency. Unfortunately, these approaches are infeasible for dense SSL due to their spatial sensitivity and complicated scene-centric data. These observations motivate us to explore explicit semantic concentration for dense SSL. First, to break the strict spatial alignment, we propose to distill the patch correspondences. Facing noisy and imbalanced pseudo labels, we propose a noise-tolerant ranking loss. The core idea is extending the Average Precision (AP) loss to continuous targets, such that its decision-agnostic and adaptive focusing properties prevent the student model from being misled. Second, to discriminate the shared patterns from complicated scenes, we propose the object-aware filter to map the output space to an object-based space. Specifically, patches are represented by learnable prototypes of objects via cross-attention. Last but not least, empirical studies across various tasks soundly support the effectiveness of our method. Code is available in https://github.com/KID-7391/CoTAP.
- Abstract(参考訳): イメージレベルの自己教師付き学習(SSL)の最近の進歩は大きな進歩を遂げているが、パッチの密度の高い表現を学習することは依然として困難である。
メインストリームメソッドは、同じインスタンス/カテゴリの散乱からパッチをパッチすることで、高密度タスクの下流のパフォーマンスを損なう過分散現象に遭遇する。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
特に、非制限空間アライメントは、インスタンス内整合性を保証する一方、共有パターン、すなわち入力空間内のクラス内インスタンスの類似部は、画像間整合性を保証する。
残念なことに、これらのアプローチは、空間感度と複雑なシーン中心のデータのため、密度の高いSSLには適用できない。
これらの観測は、高密度SSLに対する明示的な意味集中を探求する動機となっている。
まず、厳密な空間アライメントを断ち切るために、パッチ対応を蒸留することを提案する。
ノイズと不均衡な擬似ラベルに直面するため、ノイズ耐性ランキング損失を提案する。
その中核となる考え方は、平均精度(AP)損失を連続的な目標に拡張することであり、その決定に依存しない適応的な焦点特性は、学生モデルが誤解されるのを防ぐ。
次に、複雑なシーンから共有パターンを識別するために、オブジェクトベースの空間に出力空間をマッピングするオブジェクト認識フィルタを提案する。
具体的には、パッチはクロスアテンションを通じて学習可能なオブジェクトのプロトタイプによって表現される。
最後に,様々な課題に対する実証的研究は,本手法の有効性を裏付けるものである。
コードはhttps://github.com/KID-7391/CoTAPで入手できる。
関連論文リスト
- A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。
私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。
約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文 参考訳(メタデータ) (2025-05-26T03:12:49Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。
ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。
まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。
第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Constrained Mean Shift for Representation Learning [17.652439157554877]
我々は,新たな知識を活用できる非コントラスト表現学習法を開発した。
本研究の主な目的は,近傍の探索空間を制約することで平均シフトアルゴリズムを一般化することである。
本研究では,モダリティ間の雑音制約を利用して,自己教師付きビデオモデルのトレーニングを行うことが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-19T23:14:23Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Density-Aware Graph for Deep Semi-Supervised Visual Recognition [102.9484812869054]
半教師付き学習(SSL)は、視覚認識のためのディープニューラルネットワークの一般化能力を改善するために広く研究されている。
本稿では,周辺情報を容易に活用できる新しい密度対応グラフを構築することでSSL問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-30T02:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。