Fugu-MT 論文翻訳(概要): Scaling Deep Contrastive Learning Batch Size with Almost Constant Peak Memory Usage

論文の概要: Scaling Deep Contrastive Learning Batch Size with Almost Constant Peak Memory Usage

arxiv url: http://arxiv.org/abs/2101.06983v1
Date: Mon, 18 Jan 2021 10:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 05:54:49.158159
Title: Scaling Deep Contrastive Learning Batch Size with Almost Constant Peak Memory Usage
Title（参考訳）: ほぼ一定ピークメモリ使用量を持つディープコントラスト学習バッチサイズのスケーリング
Authors: Luyu Gao, Yunyi Zhang
Abstract要約: 本稿では,コントラスト損失とエンコーダの逆伝搬を分離する再計算手法を提案する。その結果、グラデーションは一度にバッチの1つのサブセットで計算することができ、異なるサイズのバッチに対してほぼ一定のピークGPUメモリ使用量をもたらす。
参考スコア（独自算出の注目度）: 5.312109949216556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive learning has been applied successfully to learn numerical vector representations of various forms of data, such as texts and images. Learned encoders exhibit versatile transfer capabilities to many downstream tasks. Representation based search is highly efficient with state-of-the-art performance. Previous researches demonstrated that learning high-quality representations requires a large number of negatives in contrastive loss. In practice, the technique of in-batch negative is used, where for each example in a batch, other batch examples' positives will be taken as its negatives, avoiding encoding extra negatives. This, however, still conditions each example's loss on all batch examples and requires fitting the entire large batch into GPU memory. This paper introduces a re-computation technique that decouples back propagation between contrastive loss and the encoder, removing encoder backward pass data dependency along the batch dimension. As a result, gradients can be computed for one subset of the batch at a time, leading to an almost constant peak GPU memory usage for batches of different sizes.
Abstract（参考訳）: コントラスト学習は、テキストや画像などの様々な形式のデータの数値ベクトル表現の学習に成功している。学習エンコーダは、多くの下流タスクに汎用的な転送能力を示す。表現に基づく検索は最先端のパフォーマンスで非常に効率的である。従来の研究では、高品質な表現を学習するには、対照的な損失に多くの否定が必要であることが示されていた。実際には、バッチ内の各例について、他のバッチサンプルの正を負とみなし、余分な負のエンコーディングを避ける、バッチ内の負のテクニックが使用される。しかし、これは依然としてすべてのバッチの例で各例の損失を条件としており、大規模なバッチ全体をgpuメモリに適合させる必要がある。本稿では,コントラスト損失とエンコーダ間のバック伝搬を分離する再計算手法を提案する。その結果、グラデーションはバッチの1つのサブセットに対して一度に計算でき、異なるサイズのバッチに対するGPUメモリ使用量がほぼ一定になる。

関連論文リスト

Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining [57.352097333505476]
B3(Breaking the Batch Barrier)は、コントラスト学習(CL)のための高品質なバッチをキュレートする新しいバッチ構築戦略である。私たちのアプローチは、トレーニング済みの教師埋め込みモデルを使用して、データセットのすべての例をランク付けすることから始まります。次に、このグラフにコミュニティ検出アルゴリズムを適用して、互いに強い負となるサンプルのクラスタを識別する。クラスタは、バッチ内の負に富んだバッチを構築するために使用される。
論文参考訳（メタデータ） (2025-05-16T14:25:43Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文参考訳（メタデータ） (2023-10-12T06:32:42Z)
Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-07-04T13:51:29Z)
Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。本研究は,リコールにおける相異なるサロゲート損失を提案する。提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-08-25T11:09:11Z)
Multi-Level Contrastive Learning for Few-Shot Problems [7.695214001809138]
コントラスト学習(Contrastive Learning)は、類似したサンプルを互いに近づき、多様なサンプルを互いに遠ざかることを目的とした差別的なアプローチである。本稿では,エンコーダの異なる層におけるコントラスト的損失を適用し,複数の表現をエンコーダから学習する多段階対等学習手法を提案する。
論文参考訳（メタデータ） (2021-07-15T21:00:02Z)
See through Gradients: Image Batch Recovery via GradInversion [103.26922860665039]
我々は、より大きなバッチからの入力イメージをResNets(50層)のような大規模ネットワークでも復元できるGradInversionを紹介した。複雑なデータセット、ディープネットワーク、大規模なバッチサイズであっても、GradInversionを通じて、個々のイメージを高い忠実度で復元できるような、驚くほど大量の情報をエンコードする勾配を示す。
論文参考訳（メタデータ） (2021-04-15T16:43:17Z)
Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。固定重み付きイメージオートエンコーダアーキテクチャから始める。各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文参考訳（メタデータ） (2020-08-13T09:02:17Z)
Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文参考訳（メタデータ） (2020-07-13T12:33:25Z)
General Purpose Text Embeddings from Pre-trained Language Models for Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文参考訳（メタデータ） (2020-04-29T16:11:26Z)
Distributed Learning and Inference with Compressed Images [40.07509530656681]
本稿では,自律運転に対する視覚に基づく認識をパラダイムシナリオとして取り上げる。生成逆ネットワーク(GAN)を用いた画像復元に基づくデータセット復元を提案する。本手法は,特定の画像圧縮手法と下流タスクの両方に非依存である。
論文参考訳（メタデータ） (2020-04-22T11:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。