論文の概要: GenView++: Unifying Adaptive View Generation and Quality-Driven Supervision for Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2509.23770v1
- Date: Sun, 28 Sep 2025 09:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.436044
- Title: GenView++: Unifying Adaptive View Generation and Quality-Driven Supervision for Contrastive Representation Learning
- Title(参考訳): GenView++: コントラスト表現学習のための適応ビュー生成と品質駆動型スーパービジョンの統合
- Authors: Xiaojie Li, Bei Wang, Jianlong Wu, Yue Yu, Liqiang Nie, Min Zhang,
- Abstract要約: GenView++はイメージベースのコントラスト学習のための統合フレームワークである。
多様なセマンティック・コヒーレントなビューを合成するマルチソース適応ビュー生成機構を導入する。
品質駆動型コントラスト学習機構は、各ペアのセマンティックアライメントと多様性を評価して、トレーニングコントリビューションを動的にリウェイトする。
実験では、視覚と視覚言語の両方のタスクにおけるGenView++の有効性が示されている。
- 参考スコア(独自算出の注目度): 71.47606279139679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of contrastive learning depends on the construction and utilization of high-quality positive pairs. However, current methods face critical limitations on two fronts: on the construction side, both handcrafted and generative augmentations often suffer from limited diversity and risk semantic corruption; on the learning side, the absence of a quality assessment mechanism leads to suboptimal supervision where all pairs are treated equally. To tackle these challenges, we propose GenView++, a unified framework that addresses both fronts by introducing two synergistic innovations. To improve pair construction, GenView++ introduces a multi-source adaptive view generation mechanism to synthesize diverse yet semantically coherent views by dynamically modulating generative parameters across image-conditioned, text-conditioned, and image-text-conditioned strategies. Second, a quality-driven contrastive learning mechanism assesses each pair's semantic alignment and diversity to dynamically reweight their training contribution, prioritizing high-quality pairs while suppressing redundant or misaligned pairs. Extensive experiments demonstrate the effectiveness of GenView++ across both vision and vision-language tasks. For vision representation learning, it improves MoCov2 by +2.5% on ImageNet linear classification. For vision-language learning, it raises the average zero-shot classification accuracy by +12.31% over CLIP and +5.31% over SLIP across ten datasets, and further improves Flickr30k text retrieval R@5 by +3.2%. The code is available at https://github.com/xiaojieli0903/GenViewPlusPlus.
- Abstract(参考訳): 対照的な学習の成功は、高品質な正対の構築と利用に依存している。
しかしながら、現在の手法は2つの面で重要な制限に直面している。建設面では、手作りと生成の強化の両方が、多様性とリスクセマンティックな腐敗に悩まされることが多く、学習面では、品質評価メカニズムが欠如しているため、全てのペアが平等に扱われる、最適以下の監督に繋がる。
これらの課題に対処するために,2つのシナジスティックなイノベーションを導入して両面に対処する統一フレームワークであるGenView++を提案する。
ペア構築を改善するため、GenView++は多ソース適応ビュー生成機構を導入し、画像条件、テキスト条件、画像テキスト条件で生成パラメータを動的に調整することで、多種多様なセマンティック・コヒーレントなビューを合成する。
第二に、品質駆動のコントラスト学習機構は、各ペアのセマンティックアライメントと多様性を評価し、そのトレーニングコントリビューションを動的にリウェイトし、高品質なペアの優先順位付けを行い、冗長あるいは不整合のペアを抑える。
広範囲にわたる実験は、視覚と視覚言語の両方のタスクにおけるGenView++の有効性を実証している。
視覚表現学習では、ImageNet線形分類でMoCov2を+2.5%改善する。
視覚言語学習では、CLIPを12.31%上、SLIPを5.31%上、Flickr30kのテキスト検索を+3.2%上回る。
コードはhttps://github.com/xiaojieli0903/GenViewPlusPlusで入手できる。
関連論文リスト
- G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning [90.13980177575809]
GenViewは、ポジティブなビューの多様性を強化するコントロール可能なフレームワークである。
我々は、正のペアの品質を評価する品質駆動のコントラスト損失を導入する。
肯定的なビュー品質の改善と品質主導のコントラスト損失のおかげで、GenViewは自己教師型学習を大幅に改善した。
論文 参考訳(メタデータ) (2024-03-18T17:41:26Z) - Hallucination Improves the Performance of Unsupervised Visual
Representation Learning [9.504503675097137]
本研究では,さらにコントラストを増すために,効率よく追加の正のサンプルを生成できるHalucinatorを提案する。
Hallucinatorは識別可能で、機能領域で新しいデータを生成する。
顕著なことに,提案した幻覚器が様々な対照的な学習モデルによく当てはまることを実証的に証明する。
論文 参考訳(メタデータ) (2023-07-22T21:15:56Z) - Hierarchical Contrastive Learning Enhanced Heterogeneous Graph Neural
Network [59.860534520941485]
ヘテロジニアスグラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)を扱う能力に優れていた。
近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。
本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。
論文 参考訳(メタデータ) (2023-04-24T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。