論文の概要: Temperature-Free Loss Function for Contrastive Learning
- arxiv url: http://arxiv.org/abs/2501.17683v1
- Date: Wed, 29 Jan 2025 14:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:38.023346
- Title: Temperature-Free Loss Function for Contrastive Learning
- Title(参考訳): コントラスト学習のための温度自由損失関数
- Authors: Bum Jun Kim, Sang Woo Kim,
- Abstract要約: 温度を使わずにInfoNCEの損失を発生させる新しい手法を提案する。
具体的には, 温度スケーリングを逆双曲型タンジェント関数に置き換え, 改良されたInfoNCE損失をもたらす。
提案手法は, コントラスト学習の5つのベンチマークで検証し, 温度調整を伴わない良好な結果を得た。
- 参考スコア(独自算出の注目度): 7.229820415732795
- License:
- Abstract: As one of the most promising methods in self-supervised learning, contrastive learning has achieved a series of breakthroughs across numerous fields. A predominant approach to implementing contrastive learning is applying InfoNCE loss: By capturing the similarities between pairs, InfoNCE loss enables learning the representation of data. Albeit its success, adopting InfoNCE loss requires tuning a temperature, which is a core hyperparameter for calibrating similarity scores. Despite its significance and sensitivity to performance being emphasized by several studies, searching for a valid temperature requires extensive trial-and-error-based experiments, which increases the difficulty of adopting InfoNCE loss. To address this difficulty, we propose a novel method to deploy InfoNCE loss without temperature. Specifically, we replace temperature scaling with the inverse hyperbolic tangent function, resulting in a modified InfoNCE loss. In addition to hyperparameter-free deployment, we observed that the proposed method even yielded a performance gain in contrastive learning. Our detailed theoretical analysis discovers that the current practice of temperature scaling in InfoNCE loss causes serious problems in gradient descent, whereas our method provides desirable gradient properties. The proposed method was validated on five benchmarks on contrastive learning, yielding satisfactory results without temperature tuning.
- Abstract(参考訳): 自己指導型学習における最も有望な方法の1つとして、コントラスト学習は多くの分野にまたがって一連のブレークスルーを達成している。
ペア間の類似性をキャプチャすることで、InfoNCE損失はデータの表現を学習することを可能にする。
その成功にもかかわらず、InfoNCEの損失を採用するには、類似性のスコアを調整するためのコアハイパーパラメータである温度を調整する必要がある。
その重要性と性能に対する感受性はいくつかの研究で強調されているが、有効な温度を求めるには大規模な試行錯誤に基づく実験が必要であるため、InfoNCEの損失を採用するのが困難になる。
そこで本研究では,温度を伴わずにInfoNCE損失を発生させる手法を提案する。
具体的には, 温度スケーリングを逆双曲型タンジェント関数に置き換え, 改良されたInfoNCE損失をもたらす。
提案手法は,ハイパーパラメータフリーな配置に加えて,コントラスト学習における性能向上も見出した。
詳細な理論的解析により,InfoNCE損失における現在の温度スケーリングは勾配降下の深刻な問題を引き起こすが,本手法は望ましい勾配特性を提供する。
提案手法は, コントラスト学習の5つのベンチマークで検証し, 温度調整を伴わない良好な結果を得た。
関連論文リスト
- Optimizing YOLOv5s Object Detection through Knowledge Distillation algorithm [37.37311465537091]
本稿では, 目標検出作業における知識蒸留技術の応用について検討する。
教師ネットワークとしてYOLOv5l, 学生ネットワークとしてYOLOv5sを用いて, 蒸留温度の増加に伴い, 学生の検知精度は徐々に向上した。
論文 参考訳(メタデータ) (2024-10-16T05:58:08Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Dynamically Scaled Temperature in Self-Supervised Contrastive Learning [11.133502139934437]
本稿では,コサインの類似性に依存した温度スケーリング機能を提案することで,自己教師型学習におけるInfoNCE損失の性能向上に着目する。
実験的な証拠は、提案フレームワークが損失ベースのSSLアルゴリズムよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-02T13:31:41Z) - Curriculum Temperature for Knowledge Distillation [30.94721463833605]
知識蒸留のためのカリキュラム温度(CTKD)と呼ばれるカリキュラムベースの手法を提案する。
CTKDは、動的で学習可能な温度で、学生の学習キャリアにおけるタスクの難易度を制御する。
簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2022-11-29T14:10:35Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Adaptive Temperature Scaling for Robust Calibration of Deep Neural
Networks [0.7219077740523682]
本研究では、信頼性スケーリングの課題、特に温度スケーリングを一般化するポストホック手法に焦点を当てる。
ニューラルネットワークのような複雑なデータモデルがたくさん存在すると、パフォーマンスは向上するが、データ量に制限がある場合には失敗する傾向にある。
本研究では,エントロピーに基づく温度スケーリングを提案し,そのエントロピーに応じて予測の信頼性を尺度化する。
論文 参考訳(メタデータ) (2022-07-31T16:20:06Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Temperature as Uncertainty in Contrastive Learning [5.8927489390473164]
コントラスト法における不確実性スコアを温度再設定により簡易に生成する手法を提案する。
このアプローチを“温度と不確実性(Temperature as Uncertainty)”(TaU)と呼んでいる。
要約すると、TaUは対照的な学習のための不確実性を生成するための単純だが汎用的な方法である。
論文 参考訳(メタデータ) (2021-10-08T23:08:30Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。