論文の概要: CLIP Brings Better Features to Visual Aesthetics Learners
- arxiv url: http://arxiv.org/abs/2307.15640v1
- Date: Fri, 28 Jul 2023 16:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:03:36.193989
- Title: CLIP Brings Better Features to Visual Aesthetics Learners
- Title(参考訳): CLIPがビジュアル美学学習者により良い機能を提供
- Authors: Liwu Xu, Jinjin Xu, Yuzhe Yang, Yijie Huang, Yanchun Xie, Yaqian Li
- Abstract要約: 画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
- 参考スコア(独自算出の注目度): 12.0962117940694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of pre-training approaches on a variety of downstream tasks has
revitalized the field of computer vision. Image aesthetics assessment (IAA) is
one of the ideal application scenarios for such methods due to subjective and
expensive labeling procedure. In this work, an unified and flexible two-phase
\textbf{C}LIP-based \textbf{S}emi-supervised \textbf{K}nowledge
\textbf{D}istillation paradigm is proposed, namely \textbf{\textit{CSKD}}.
Specifically, we first integrate and leverage a multi-source unlabeled dataset
to align rich features between a given visual encoder and an off-the-shelf CLIP
image encoder via feature alignment loss. Notably, the given visual encoder is
not limited by size or structure and, once well-trained, it can seamlessly
serve as a better visual aesthetic learner for both student and teacher. In the
second phase, the unlabeled data is also utilized in semi-supervised IAA
learning to further boost student model performance when applied in
latency-sensitive production scenarios. By analyzing the attention distance and
entropy before and after feature alignment, we notice an alleviation of feature
collapse issue, which in turn showcase the necessity of feature alignment
instead of training directly based on CLIP image encoder. Extensive experiments
indicate the superiority of CSKD, which achieves state-of-the-art performance
on multiple widely used IAA benchmarks.
- Abstract(参考訳): 様々な下流タスクにおける事前学習アプローチの成功は、コンピュータビジョンの分野を活性化させた。
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究では、統一的で柔軟な2相 \textbf{C}LIP ベースの \textbf{S}emi-supervised \textbf{K}nowledge \textbf{D}istillation パラダイム、すなわち \textbf{\textit{CSKD}} を提案する。
具体的には、まずマルチソースのラベルなしデータセットを統合して、所定のビジュアルエンコーダとオフザシェルのCLIPイメージエンコーダ間のリッチな特徴を特徴アライメントロスを介して整列させる。
特に、与えられた視覚エンコーダはサイズや構造によって制限されず、十分に訓練された後、学生と教師の両方にとってより優れた視覚的美学学習者としてシームレスに機能する。
第2段階では、ラベルなしデータは半教師付きIAA学習にも利用され、レイテンシに敏感な生産シナリオに適用した場合、学生モデルの性能をさらに向上させる。
特徴のアライメント前後の注意距離とエントロピーを分析することで,特徴の崩壊を緩和し,クリップ画像エンコーダに基づいて直接訓練するのではなく,特徴のアライメントの必要性を示す。
複数の広く使用されているIAAベンチマークで最先端の性能を達成するCSKDの優位性を示している。
関連論文リスト
- Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation [14.998239253285394]
我々は,視覚的先行表現を視覚テキストアライメント能力に置き換えて,より信頼性の高いガイダンスを取得することを提案する。
本研究では,本手法が明らかに向上し,新しい最先端性能に達することを示す。
論文 参考訳(メタデータ) (2024-05-14T09:28:25Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - ICPC: Instance-Conditioned Prompting with Contrastive Learning for
Semantic Segmentation [26.25673603166731]
最近の研究は、知識をCLIPから素早い学習を通して意味的セグメンテーションに移行することで、有望なパフォーマンスを実現することができることを示している。
設計と損失関数の2つの側面から視覚テキストアライメントの質を向上させることに注力する。
我々は、視覚とテキストの埋め込みのアライメントを洗練させるために、アライメント誘導によるコントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-08-14T11:21:47Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。