論文の概要: CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks
- arxiv url: http://arxiv.org/abs/2601.13133v1
- Date: Mon, 19 Jan 2026 15:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.946871
- Title: CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks
- Title(参考訳): CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks
- Authors: Mingshuang Luo, Ruibing Hou, Bo Chao, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan,
- Abstract要約: CLASP (CLIP-guided Adaptable Self-su Pervised Learning) は、人中心視覚タスクにおける教師なし事前学習のための新しいフレームワークである。
CLASPは強力な視覚言語モデルCLIPを利用して、低レベル(体の部分など)と高レベル(属性など)のセマンティックな擬似ラベルを生成する。
MoEはタスク固有のプロンプトに基づいて機能抽出を動的に適応し、潜在的な機能競合を緩和し、転送可能性を高める。
- 参考スコア(独自算出の注目度): 76.00315860962885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric visual analysis plays a pivotal role in diverse applications, including surveillance, healthcare, and human-computer interaction. With the emergence of large-scale unlabeled human image datasets, there is an increasing need for a general unsupervised pre-training model capable of supporting diverse human-centric downstream tasks. To achieve this goal, we propose CLASP (CLIP-guided Adaptable Self-suPervised learning), a novel framework designed for unsupervised pre-training in human-centric visual tasks. CLASP leverages the powerful vision-language model CLIP to generate both low-level (e.g., body parts) and high-level (e.g., attributes) semantic pseudo-labels. These multi-level semantic cues are then integrated into the learned visual representations, enriching their expressiveness and generalizability. Recognizing that different downstream tasks demand varying levels of semantic granularity, CLASP incorporates a Prompt-Controlled Mixture-of-Experts (MoE) module. MoE dynamically adapts feature extraction based on task-specific prompts, mitigating potential feature conflicts and enhancing transferability. Furthermore, CLASP employs a multi-task pre-training strategy, where part- and attribute-level pseudo-labels derived from CLIP guide the representation learning process. Extensive experiments across multiple benchmarks demonstrate that CLASP consistently outperforms existing unsupervised pre-training methods, advancing the field of human-centric visual analysis.
- Abstract(参考訳): 人中心の視覚分析は、監視、医療、人間とコンピュータの相互作用など、多様なアプリケーションにおいて重要な役割を担っている。
大規模にラベル付けされていない人間の画像データセットの出現に伴い、多様な人間中心の下流タスクをサポートすることができる一般的な教師なし事前学習モデルの必要性が高まっている。
この目的を達成するために,人中心視覚タスクにおける教師なし事前学習のための新しいフレームワークであるCLASP(CLIP-Guided Adaptable Self-suPervised Learning)を提案する。
CLASPは強力な視覚言語モデルCLIPを利用して、低レベル(例えば体の部分)と高レベル(例えば属性)の擬似ラベルを生成する。
これらの多レベルセマンティックキューは学習された視覚表現に統合され、表現性や一般化可能性を高める。
さまざまなダウンストリームタスクがセマンティックな粒度を要求していることを認識し、CLASPはPrompt-Controlled Mixture-of-Experts (MoE)モジュールを組み込んでいる。
MoEはタスク固有のプロンプトに基づいて機能抽出を動的に適応し、潜在的な機能競合を緩和し、転送可能性を高める。
さらにCLASPは、CLIPから派生したパートレベルおよび属性レベルの擬似ラベルが表現学習プロセスを導くマルチタスク事前学習戦略を採用している。
複数のベンチマークにわたる大規模な実験は、CLASPが既存の教師なし事前学習手法を一貫して上回り、人間中心の視覚分析の分野を前進させることを示した。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚言語学習と差別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
本フレームワークは,自己教師型学習パスにおけるネガティブな例に頼らず,Webスクラッドデータに特化して動作するように設計されている。
様々な視覚的下流タスクにおけるハーモニーの評価を行い、ベースラインCLIPを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-23T07:18:08Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。