論文の概要: Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2410.19560v1
- Date: Fri, 25 Oct 2024 13:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:05.041503
- Title: Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning
- Title(参考訳): コントラスト型自己教師型学習と共同組込み予測アーキテクチャの連携
- Authors: Shentong Mo, Shengbang Tong,
- Abstract要約: Contrastive-JEPAは、画像ベースのジョイントエンベッドディング予測アーキテクチャと可変不変共分散正規化(VICReg)戦略を統合している。
C-JEPAは視覚表現学習の安定性と品質を大幅に向上させる。
ImageNet-1Kデータセットで事前トレーニングされた場合、C-JEPAは線形プローブと微調整パフォーマンスメトリクスの両方において、迅速で改善された収束を示す。
- 参考スコア(独自算出の注目度): 14.869908713261227
- License:
- Abstract: In recent advancements in unsupervised visual representation learning, the Joint-Embedding Predictive Architecture (JEPA) has emerged as a significant method for extracting visual features from unlabeled imagery through an innovative masking strategy. Despite its success, two primary limitations have been identified: the inefficacy of Exponential Moving Average (EMA) from I-JEPA in preventing entire collapse and the inadequacy of I-JEPA prediction in accurately learning the mean of patch representations. Addressing these challenges, this study introduces a novel framework, namely C-JEPA (Contrastive-JEPA), which integrates the Image-based Joint-Embedding Predictive Architecture with the Variance-Invariance-Covariance Regularization (VICReg) strategy. This integration is designed to effectively learn the variance/covariance for preventing entire collapse and ensuring invariance in the mean of augmented views, thereby overcoming the identified limitations. Through empirical and theoretical evaluations, our work demonstrates that C-JEPA significantly enhances the stability and quality of visual representation learning. When pre-trained on the ImageNet-1K dataset, C-JEPA exhibits rapid and improved convergence in both linear probing and fine-tuning performance metrics.
- Abstract(参考訳): 教師なし視覚表現学習の最近の進歩の中で,JEPA (Joint-Embedding Predictive Architecture) は,革新的なマスキング戦略を通じて,ラベルなし画像から視覚特徴を抽出する重要な手法として登場した。
その成功にもかかわらず、I-JEPAからの指数移動平均(EMA)の非効率性と、パッチ表現の平均を正確に学習するI-JEPA予測の不適切さの2つの主要な制限が特定されている。
これらの課題に対処するために、画像ベース統合埋め込み予測アーキテクチャと可変不変共分散正規化(VICReg)戦略を統合した、C-JEPA(Contrastive-JEPA)という新しいフレームワークを導入する。
この統合は、分散/共分散を効果的に学習し、全体の崩壊を防ぎ、拡張ビューの平均における不変性を保証し、それによって特定された制限を克服するように設計されている。
実験的および理論的評価により,C-JEPAは視覚表現学習の安定性と品質を著しく向上させることが示された。
ImageNet-1Kデータセットで事前トレーニングされた場合、C-JEPAは線形プローブと微調整パフォーマンスメトリクスの両方において、迅速で改善された収束を示す。
関連論文リスト
- Denoising with a Joint-Embedding Predictive Architecture [21.42513407755273]
私たちはD-JEPA(Joint-Embedding Predictive Architecture)でDenoisingを紹介します。
本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,一般化した次世代予測戦略として再解釈する。
また,拡散損失を利用して確率分布をモデル化し,連続空間におけるデータ生成を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:57:10Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。
このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。
一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - Joint Embedding Predictive Architectures Focus on Slow Features [56.393060086442006]
JEPA(Joint Embedding Predictive Architectures)は、再構築不要の代替手段を提供する。
我々は、VICRegとSimCLRで訓練されたJEPAのパフォーマンスを、報酬にアクセスできることなく完全にオフラインで分析する。
JEPAメソッドはステップ毎にノイズが変わるが、ノイズが修正されるとフェールする。
論文 参考訳(メタデータ) (2022-11-20T00:50:11Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Peeking into occluded joints: A novel framework for crowd pose
estimation [88.56203133287865]
OPEC-NetはイメージガイドされたプログレッシブGCNモジュールで、推論の観点から見えない関節を推定する。
OCPoseは、隣接するインスタンス間の平均IoUに対して、最も複雑なOccluded Poseデータセットである。
論文 参考訳(メタデータ) (2020-03-23T19:32:40Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。