論文の概要: Enhancing VICReg: Random-Walk Pairing for Improved Generalization and Better Global Semantics Capturing
- arxiv url: http://arxiv.org/abs/2506.18104v1
- Date: Sun, 22 Jun 2025 17:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.750047
- Title: Enhancing VICReg: Random-Walk Pairing for Improved Generalization and Better Global Semantics Capturing
- Title(参考訳): VICRegの強化: 一般化とグローバルセマンティックキャプチャの改善のためのランダムウォークペアリング
- Authors: Idan Simai, Ronen Talmon, Uri Shaham,
- Abstract要約: SAG-VICRegはVICReg上に構築され、新しいトレーニング技術が組み込まれている。
SAG-VICRegは、さまざまな最先端SSLベースラインをマッチングまたは超越しながら、一般化の課題に効果的に対処する。
本稿では,ラベルを必要とせず,グローバルなデータ構造に対する標準評価手法や説明を補完する,埋め込みのための新たなスタンドアロン評価指標を提案する。
- 参考スコア(独自算出の注目度): 9.143957433075808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we argue that viewing VICReg-a popular self-supervised learning (SSL) method--through the lens of spectral embedding reveals a potential source of sub-optimality: it may struggle to generalize robustly to unseen data due to overreliance on the training data. This observation invites a closer look at how well this method achieves its goal of producing meaningful representations of images outside of the training set as well. Here, we investigate this issue and introduce SAG-VICReg (Stable and Generalizable VICReg), a method that builds on VICReg by incorporating new training techniques. These enhancements improve the model's ability to capture global semantics within the data and strengthen the generalization capabilities. Experiments demonstrate that SAG-VICReg effectively addresses the generalization challenge while matching or surpassing diverse state-of-the-art SSL baselines. Notably, our method exhibits superior performance on metrics designed to evaluate global semantic understanding, while simultaneously maintaining competitive results on local evaluation metrics. Furthermore, we propose a new standalone evaluation metric for embeddings that complements the standard evaluation methods and accounts for the global data structure without requiring labels--a key issue when tagged data is scarce or not available.
- Abstract(参考訳): 本稿では、スペクトル埋め込みのレンズを通して、人気のある自己教師型学習(SSL)手法であるVICRegの視認が、潜在的に準最適性の源となることを論じる。
この観察は、この手法がトレーニングセット外のイメージの有意義な表現をいかに達成するかを、より深く観察する。
そこで本研究では,新たなトレーニング手法を導入してVICReg上に構築したSAG-VICReg(Stable and Generalizable VICReg)を紹介する。
これらの強化により、データ内のグローバルなセマンティクスをキャプチャし、一般化機能を強化するモデルの能力が向上する。
実験により、SAG-VICRegは、さまざまな最先端SSLベースラインをマッチングまたは超越しながら、一般化の課題に効果的に対処していることが示された。
特に,本手法は,グローバルな意味理解を評価するために設計された指標に対して優れた性能を示すとともに,局所的な評価指標の競合結果も同時に維持する。
さらに,ラベルを必要とせず,標準的な評価手法とグローバルなデータ構造を補完する埋め込みのための新たなスタンドアロン評価指標を提案する。
関連論文リスト
- Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - FedEGG: Federated Learning with Explicit Global Guidance [90.04705121816185]
フェデレートラーニング(FL)は、そのプライバシー保護の性質から、多様なアプリケーションにとって大きな可能性を秘めている。
既存の手法は、最適化ベースのクライアント制約、適応的なクライアント選択、事前訓練されたモデルや合成データの使用によってこれらの課題に対処するのに役立つ。
我々はbftextFedEGGを提案する。bftextFedEGGは、よく定義された、容易に収束できる学習タスクを用いて、グローバルガイドタスクを構築する新しいFLアルゴリズムである。
論文 参考訳(メタデータ) (2024-04-18T04:25:21Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster
Sampling for Sequential Recommendation [58.6450834556133]
本研究では,グローバルな視点から複雑な関連性を持つ項目表現を強化するために,グラフコントラスト学習を提案する。
本稿では,CapsNetモジュールを拡張したターゲットアテンション機構により,ユーザの動的嗜好を導出する。
提案したGUESRは,大幅な改善を達成できただけでなく,汎用的な拡張戦略ともみなすことができた。
論文 参考訳(メタデータ) (2023-03-01T05:46:36Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot
Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。
ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。
グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文 参考訳(メタデータ) (2021-11-03T11:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。