Fugu-MT 論文翻訳(概要): DySTreSS: Dynamically Scaled Temperature in Self-Supervised Contrastive Learning

論文の概要: DySTreSS: Dynamically Scaled Temperature in Self-Supervised Contrastive Learning

arxiv url: http://arxiv.org/abs/2308.01140v1
Date: Wed, 2 Aug 2023 13:31:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 12:50:21.362761
Title: DySTreSS: Dynamically Scaled Temperature in Self-Supervised Contrastive Learning
Title（参考訳）: DySTreSS: 自己監督型コントラスト学習における動的スケール温度
Authors: Siladittya Manna, Soumitri Chattopadhyay, Rakesh Dey, Saumik Bhattacharya, Umapada Pal
Abstract要約: 特徴空間におけるサンプルの分布を最適化するために,コサイン類似性に依存した温度スケーリング関数を提案する。予備学習段階を通じて特徴空間における局所的・大域的構造の挙動を包括的に検討する。実験的な証拠は、提案されたフレームワークが、対照的な損失ベースのSSLアルゴリズムよりも優れているか、あるいは同等であることを示している。
参考スコア（独自算出の注目度）: 15.103383001990714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In contemporary self-supervised contrastive algorithms like SimCLR, MoCo, etc., the task of balancing attraction between two semantically similar samples and repulsion between two samples from different classes is primarily affected by the presence of hard negative samples. While the InfoNCE loss has been shown to impose penalties based on hardness, the temperature hyper-parameter is the key to regulating the penalties and the trade-off between uniformity and tolerance. In this work, we focus our attention to improve the performance of InfoNCE loss in SSL by studying the effect of temperature hyper-parameter values. We propose a cosine similarity-dependent temperature scaling function to effectively optimize the distribution of the samples in the feature space. We further analyze the uniformity and tolerance metrics to investigate the optimal regions in the cosine similarity space for better optimization. Additionally, we offer a comprehensive examination of the behavior of local and global structures in the feature space throughout the pre-training phase, as the temperature varies. Experimental evidence shows that the proposed framework outperforms or is at par with the contrastive loss-based SSL algorithms. We believe our work (DySTreSS) on temperature scaling in SSL provides a foundation for future research in contrastive learning.
Abstract（参考訳）: SimCLRやMoCoなどの現代の自己監督型コントラストアルゴリズムでは、2つの意味論的に類似したサンプル間のアトラクションのバランスと、異なるクラスからの2つのサンプル間の反発は、主にハードネガティブなサンプルの存在によって影響を受ける。情報損失はハードネスに基づくペナルティを課すことが示されているが、温度ハイパーパラメータはペナルティの規制と均一性と耐性の間のトレードオフの鍵である。本研究では, 温度ハイパーパラメータ値の影響を調べることにより, sslにおけるインフォメーションロスの性能向上に着目する。特徴空間における試料分布を効果的に最適化するために,コサイン類似度依存性温度スケーリング関数を提案する。さらに,統一性と耐性の指標を分析し,コサイン類似性空間の最適領域を調査した。さらに、温度が変化するにつれて、前訓練フェーズを通して特徴空間における局所構造と大域構造の挙動を網羅的に調べる。実験的な証拠は、提案されたフレームワークが、対照的な損失ベースのSSLアルゴリズムよりも優れているか、あるいは同等であることを示している。 SSLの温度スケーリングに関する我々の研究(DySTreSS)は、コントラスト学習における将来の研究の基盤となると信じています。

関連論文リスト

WSS-CL: Weight Saliency Soft-Guided Contrastive Learning for Efficient Machine Unlearning Image Classification [0.0]
本稿では,画像分類のための2相効率的な機械学習手法を提案する。我々の手法は、効率的な機械学習画像分類(WSS-CL)のためのウェイトサリエンシソフトガイド型コントラスト学習と呼ばれる。提案手法は, 最先端手法と比較して, 性能損失を無視できるほど改善されていない未学習の有効性を示す。
論文参考訳（メタデータ） (2025-08-06T10:47:36Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
Symmetry-Preserving Diffusion Models via Target Symmetrization [43.83899968118655]
本稿では, 対称性付き損失関数を用いて等価性を強制する新しい手法を提案する。本手法では,モンテカルロサンプリングを用いて平均値を推定し,計算オーバーヘッドを最小限に抑える。実験では,既存の方法と比較して試料の品質が向上した。
論文参考訳（メタデータ） (2025-02-14T03:26:57Z)
Temperature-Free Loss Function for Contrastive Learning [7.229820415732795]
温度を使わずにInfoNCEの損失を発生させる新しい手法を提案する。具体的には, 温度スケーリングを逆双曲型タンジェント関数に置き換え, 改良されたInfoNCE損失をもたらす。提案手法は, コントラスト学習の5つのベンチマークで検証し, 温度調整を伴わない良好な結果を得た。
論文参考訳（メタデータ） (2025-01-29T14:43:21Z)
CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。 CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文参考訳（メタデータ） (2024-04-22T11:52:40Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文参考訳（メタデータ） (2023-12-01T05:38:17Z)
Sample Dominance Aware Framework via Non-Parametric Estimation for Spontaneous Brain-Computer Interface [27.077560296908423]
非定常特性による不整合脳波信号は、性能を低下させる可能性がある。本研究では,脳波信号の不整合の指標として,サンプル優位の概念を紹介する。サンプルの不整合に起因する性能を補償する2段階支配スコア推定手法を提案する。
論文参考訳（メタデータ） (2023-11-13T05:08:26Z)
KL-Divergence Guided Temperature Sampling [5.726259957909055]
温度が上がると、予測は多様になるが、幻覚にも弱い。幻覚を緩和するための一般的なアプローチは、ソース/グラウンドのドキュメントを提供することである。本稿では,デコードステップよりも温度が一定であることの制約を緩和すると共に,その発生源との関係に応じて動的温度を誘導する機構を提案する。
論文参考訳（メタデータ） (2023-06-02T06:11:26Z)
Not All Semantics are Created Equal: Contrastive Self-supervised Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-05-19T19:25:56Z)
Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。 In-Training Representation Alignment (ITRA) を提案する。また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文参考訳（メタデータ） (2022-11-23T22:23:22Z)
The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。 SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文参考訳（メタデータ） (2021-12-20T20:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。