論文の概要: Patch-Level Kernel Alignment for Dense Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2509.05606v2
- Date: Thu, 02 Oct 2025 08:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.062758
- Title: Patch-Level Kernel Alignment for Dense Self-Supervised Learning
- Title(参考訳): 高度自己監督学習のためのパッチレベルカーネルアライメント
- Authors: Juan Yeo, Ijun Jang, Taesup Kim,
- Abstract要約: Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 7.5866326278176075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense self-supervised learning (SSL) methods showed its effectiveness in enhancing the fine-grained semantic understandings of vision models. However, existing approaches often rely on parametric assumptions or complex post-processing (e.g., clustering, sorting), limiting their flexibility and stability. To overcome these limitations, we introduce Patch-level Kernel Alignment (PaKA), a non-parametric, kernel-based approach that improves the dense representations of pretrained vision encoders with a post-(pre)training. Our method propose a robust and effective alignment objective that captures statistical dependencies which matches the intrinsic structure of high-dimensional dense feature distributions. In addition, we revisit the augmentation strategies inherited from image-level SSL and propose a refined augmentation strategy for dense SSL. Our framework improves dense representations by conducting a lightweight post-training stage on top of a pretrained model. With only 14 hours of additional training on a single GPU, our method achieves state-of-the-art performance across a range of dense vision benchmarks, demonstrating both efficiency and effectiveness.
- Abstract(参考訳): ディエンス自己教師付き学習(SSL)法は,視覚モデルの詳細な意味理解を高める効果を示した。
しかし、既存のアプローチは、しばしばパラメトリックな仮定や複雑な後処理(例えば、クラスタリング、ソート)に依存し、柔軟性と安定性を制限します。
これらの制限を克服するために、Patch-level Kernel Alignment (PaKA)を導入する。これは非パラメトリックなカーネルベースのアプローチで、ポスト(pre)トレーニングによる事前学習された視覚エンコーダの密度表現を改善する。
提案手法は,高次元密度特徴分布の固有構造と一致する統計的依存関係を捕捉する,頑健で効果的なアライメント対象を提案する。
さらに,画像レベルSSLから継承した拡張戦略を再検討し,高密度SSLのための改良された拡張戦略を提案する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加トレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを実現し、効率と有効性の両方を実証する。
関連論文リスト
- Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [3.7365850182404845]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Self-Supervised Consistent Quantization for Fully Unsupervised Image
Retrieval [17.422973861218182]
教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学習することを目的としている。
近年の進歩は、視覚的特徴と量子化符号を協調的に最適化するために、深いモデルをスクラッチからトレーニングすることを目的とした、完全な教師なし画像検索を提案する。
本稿では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための, 自己教師付き一貫した量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T14:39:59Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。