論文の概要: Self-Supervised Contrastive Learning for Multi-Label Images
- arxiv url: http://arxiv.org/abs/2506.23156v1
- Date: Sun, 29 Jun 2025 09:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.750147
- Title: Self-Supervised Contrastive Learning for Multi-Label Images
- Title(参考訳): マルチラベル画像に対する自己教師付きコントラスト学習
- Authors: Jiale Chen,
- Abstract要約: 自己教師付き学習(SSL)は、人間の直感に合わせた比較手法を通じて、表現の学習においてその効果を実証している。
我々は、マルチラベル画像が少ないことで優れた表現学習能力を確保するために、主流のSSLアプローチをカスタマイズする。
- 参考スコア(独自算出の注目度): 0.9125467603318544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning (SSL) has demonstrated its effectiveness in learning representations through comparison methods that align with human intuition. However, mainstream SSL methods heavily rely on high body datasets with single label, such as ImageNet, resulting in intolerable pre-training overhead. Besides, more general multi-label images are frequently overlooked in SSL, despite their potential for richer semantic information and broader applicability in downstream scenarios. Therefore, we tailor the mainstream SSL approach to guarantee excellent representation learning capabilities using fewer multi-label images. Firstly, we propose a block-wise augmentation module aimed at extracting additional potential positive view pairs from multi-label images. Subsequently, an image-aware contrastive loss is devised to establish connections between these views, thereby facilitating the extraction of semantically consistent representations. Comprehensive linear fine-tuning and transfer learning validate the competitiveness of our approach despite challenging sample quality and quantity.
- Abstract(参考訳): 自己教師付き学習(SSL)は、人間の直感に合わせた比較手法を通じて、表現の学習においてその効果を実証している。
しかし、主流のSSLメソッドは、ImageNetのような単一のラベルを持つハイボディデータセットに大きく依存しているため、耐え難い事前トレーニングのオーバーヘッドが発生している。
さらに、より一般的なマルチラベルイメージは、よりリッチなセマンティック情報や下流シナリオの適用可能性にもかかわらず、SSLでしばしば見過ごされる。
そこで我々は,マルチラベル画像の少ない表現学習能力を確保するために,主流のSSLアプローチを調整した。
まず,複数ラベル画像から付加的な肯定的な視点対を抽出することを目的としたブロックワイズ拡張モジュールを提案する。
その後、これらのビュー間の接続を確立するために、画像認識のコントラスト損失を考案し、意味的に一貫性のある表現の抽出を容易にする。
包括的線形微調整および転写学習は,サンプルの品質と量に挑戦するにもかかわらず,我々のアプローチの競争性を検証する。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。
SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:06:54Z) - Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。
提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文 参考訳(メタデータ) (2023-08-07T04:04:22Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - Object-Aware Self-supervised Multi-Label Learning [9.496981642855769]
マルチラベル学習のためのよりきめ細かい表現を得るために,オブジェクト指向自己スーパービジョン(OASS)法を提案する。
提案手法は,提案しない方式でCSI(Class-Specific Instances)を効率的に生成するために利用することができる。
マルチラベル分類のためのVOC2012データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-14T10:14:08Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。