論文の概要: Dual Temperature Helps Contrastive Learning Without Many Negative
Samples: Towards Understanding and Simplifying MoCo
- arxiv url: http://arxiv.org/abs/2203.17248v1
- Date: Wed, 30 Mar 2022 13:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 14:02:37.665056
- Title: Dual Temperature Helps Contrastive Learning Without Many Negative
Samples: Towards Understanding and Simplifying MoCo
- Title(参考訳): 負のサンプルを多く含まないコントラスト学習を支援するデュアル温度: MoCoの理解と簡易化を目指して
- Authors: Chaoning Zhang, Kang Zhang, Trung X. Pham, Axi Niu, Zhinan Qiao, Chang
D. Yoo, In So Kweon
- Abstract要約: 本稿では,MoCoファミリーにおけるコントラスト学習(CL)のためのモーメントベースのキュー辞書を提案する。
私たちのフレームワークであるSimMoCoとSimCoは、MoCo v2よりも目に見えるマージンで優れています。
私たちの作業は、CLと非CLフレームワークのギャップを埋め、SSLにおけるこれらの2つの主流フレームワークのより統一された理解に寄与します。
- 参考スコア(独自算出の注目度): 75.44800530840389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning (CL) is widely known to require many negative samples,
65536 in MoCo for instance, for which the performance of a dictionary-free
framework is often inferior because the negative sample size (NSS) is limited
by its mini-batch size (MBS). To decouple the NSS from the MBS, a dynamic
dictionary has been adopted in a large volume of CL frameworks, among which
arguably the most popular one is MoCo family. In essence, MoCo adopts a
momentum-based queue dictionary, for which we perform a fine-grained analysis
of its size and consistency. We point out that InfoNCE loss used in MoCo
implicitly attract anchors to their corresponding positive sample with various
strength of penalties and identify such inter-anchor hardness-awareness
property as a major reason for the necessity of a large dictionary. Our
findings motivate us to simplify MoCo v2 via the removal of its dictionary as
well as momentum. Based on an InfoNCE with the proposed dual temperature, our
simplified frameworks, SimMoCo and SimCo, outperform MoCo v2 by a visible
margin. Moreover, our work bridges the gap between CL and non-CL frameworks,
contributing to a more unified understanding of these two mainstream frameworks
in SSL. Code is available at: https://bit.ly/3LkQbaT.
- Abstract(参考訳): 対照的学習(CL)は多くの負のサンプルを必要とすることが広く知られており、例えばMoCoの65536では、負のサンプルサイズ(NSS)がそのミニバッチサイズ(MBS)によって制限されるため、辞書のないフレームワークの性能は劣ることが多い。
nssをmbsから切り離すため、動的辞書は多数のclフレームワークに採用されており、その中で最も人気のあるのがmocoファミリーである。
本質的には、モーメントベースのキュー辞書を採用し、そのサイズと一貫性を詳細に分析する。
我々は, MoCo におけるInfoNCE の損失が, ペナルティの強さの異なる正のサンプルに対して暗黙的にアンカーを惹きつけることを指摘し, 大規模辞書の必要性の大きな理由として, アンカー間の硬さ認識特性を同定した。
我々の発見は、モコv2の辞書の削除とモメンタムを簡素化する動機となった。
提案された2つの温度を持つInfoNCEに基づいて、単純化されたフレームワークであるSimMoCoとSimCoは、MoCo v2を目に見えるマージンで上回っている。
さらに、私たちの作業はCLと非CLフレームワークのギャップを埋め、SSLにおけるこれらの2つの主流フレームワークのより統一された理解に寄与します。
コードはhttps://bit.ly/3lkqbat.com/。
関連論文リスト
- $\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts [42.425214236116865]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールアップするための有望なフレームワークとして人気が高まっている。
我々は,SMoEの信頼性を3つの側面から総合的に評価する$textttMoE-RBenchを提案し,その安全性と幻覚,攻撃に対するレジリエンス,および$textit(iii)$out-of-distribution robustnessを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:17:05Z) - Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する
MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。
本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z) - Improved Baselines with Momentum Contrastive Learning [57.79672976817166]
本稿では,MoCoフレームワークに実装することで,SimCLRの設計改善の2つの有効性を検証する。
SimCLRより優れたベースラインを確立し、大規模なトレーニングバッチを必要としない。
論文 参考訳(メタデータ) (2020-03-09T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。