論文の概要: Patch-level Kernel Alignment for Self-Supervised Dense Representation Learning
- arxiv url: http://arxiv.org/abs/2509.05606v1
- Date: Sat, 06 Sep 2025 05:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.607925
- Title: Patch-level Kernel Alignment for Self-Supervised Dense Representation Learning
- Title(参考訳): 自己スーパービジョンDense Representation Learningのためのパッチレベルのカーネルアライメント
- Authors: Juan Yeo, Ijun Jang, Taesup Kim,
- Abstract要約: 本稿では,自己教師付き学習による事前学習に基づくフレームワークを提案する。
本手法は,教師と生徒モデル間の密集した特徴の分布を一致させる。
我々のフレームワークは、様々な高密度ビジョンベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 7.5866326278176075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense representations are essential for vision tasks that require spatial precision and fine-grained detail. While most self-supervised representation learning methods focus on global representations that summarize the image as a whole, such approaches often fall short in capturing the localized semantics necessary for dense prediction tasks. To overcome these limitations, we propose a framework that builds on pretrained representations through additional self-supervised learning, aiming to transfer existing semantic knowledge into the dense feature space. Our method aligns the distributions of dense features between a teacher and a student model. Specifically, we introduce Patch-level Kernel Alignment (PaKA), a simple yet effective alignment objective that captures statistical dependencies, thereby matching the structural relationships of dense patches across the two models. In addition, we investigate augmentation strategies specifically designed for dense representation learning. Our framework achieves state-of-the-art results across a variety of dense vision benchmarks, demonstrating the effectiveness of our approach.
- Abstract(参考訳): デンス表現は、空間的精度と細かな詳細を必要とする視覚タスクに不可欠である。
ほとんどの自己教師付き表現学習法は、画像全体を要約するグローバル表現に焦点を当てているが、そのようなアプローチは、密集した予測タスクに必要な局所的な意味を捉えるのに不足することが多い。
これらの制約を克服するために,既存の意味知識を高密度な特徴空間に伝達することを目的とした,自己教師付き学習による事前学習に基づくフレームワークを提案する。
本手法は,教師と生徒モデル間の密集した特徴の分布を一致させる。
具体的には,Patch-level Kernel Alignment (PaKA)を導入し,統計的依存関係を捕捉し,二つのモデルにまたがる密パッチの構造的関係を一致させる。
さらに,高密度表現学習に特化して設計された拡張戦略についても検討する。
我々のフレームワークは、様々な高密度ビジョンベンチマークで最先端の結果を達成し、我々のアプローチの有効性を実証する。
関連論文リスト
- Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。
我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。
本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文 参考訳(メタデータ) (2025-10-20T08:40:16Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [3.7365850182404845]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。
RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文 参考訳(メタデータ) (2025-05-03T04:58:29Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Hybrid Multi-Stage Learning Framework for Edge Detection: A Survey [0.0]
本稿では,CNN(Convolutional Neural Network)機能抽出とSVM(Support Vector Machine)を統合したハイブリッド多段階学習フレームワークを提案する。
提案手法は特徴表現と分類段階を分離し,堅牢性と解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T13:06:31Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - An efficient framework based on large foundation model for cervical cytopathology whole slide image screening [13.744580492120749]
本稿では,教師なし・弱教師付き学習によるWSIレベルラベルのみを用いた頚部細胞病理学WSI分類のための効率的なフレームワークを提案する。
CSDおよびFNAC 2019データセットで実施された実験は、提案手法が様々なMIL手法の性能を高め、最先端(SOTA)性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T08:21:54Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Self-Supervised Consistent Quantization for Fully Unsupervised Image
Retrieval [17.422973861218182]
教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学習することを目的としている。
近年の進歩は、視覚的特徴と量子化符号を協調的に最適化するために、深いモデルをスクラッチからトレーニングすることを目的とした、完全な教師なし画像検索を提案する。
本稿では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための, 自己教師付き一貫した量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T14:39:59Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。