論文の概要: NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization
- arxiv url: http://arxiv.org/abs/2511.08417v1
- Date: Wed, 12 Nov 2025 01:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.804928
- Title: NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization
- Title(参考訳): NeuCLIP: ニューラル正規化器最適化による大規模CLIP訓練の効率化
- Authors: Xiyuan Wei, Chih-Jen Lin, Tianbao Yang,
- Abstract要約: 対照的な損失における正規化項の正確な推定は、コントラスト言語-画像事前学習モデルにおける中心的な課題である。
提案するNeuCLIPは,2つの鍵となるアイデアに基づく,斬新でエレガントな最適化フレームワークである。
数百万から数十億のサンプルのデータセットにまたがる大規模CLIPトレーニングの実験は、NeuCLIPが従来の方法より優れていることを実証している。
- 参考スコア(独自算出の注目度): 42.298647858844895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating the normalization term (also known as the partition function) in the contrastive loss is a central challenge for training Contrastive Language-Image Pre-training (CLIP) models. Conventional methods rely on large batches for approximation, demanding substantial computational resources. To mitigate this issue, prior works introduced per-sample normalizer estimators, which are updated at each epoch in a blockwise coordinate manner to keep track of updated encoders. However, this scheme incurs optimization error that scales with the ratio of dataset size to batch size, limiting effectiveness for large datasets or small batches. To overcome this limitation, we propose NeuCLIP, a novel and elegant optimization framework based on two key ideas: (i) $\textbf{reformulating}$ the contrastive loss for each sample $\textbf{via convex analysis}$ into a minimization problem with an auxiliary variable representing its log-normalizer; and (ii) $\textbf{transforming}$ the resulting minimization over $n$ auxiliary variables (where $n$ is the dataset size) via $\textbf{variational analysis}$ into the minimization over a compact neural network that predicts the log-normalizers. We design an alternating optimization algorithm that jointly trains the CLIP model and the auxiliary network. By employing a tailored architecture and acceleration techniques for the auxiliary network, NeuCLIP achieves more accurate normalizer estimation, leading to improved performance compared with previous methods. Extensive experiments on large-scale CLIP training, spanning datasets from millions to billions of samples, demonstrate that NeuCLIP outperforms previous methods.
- Abstract(参考訳): 対照的な損失における正規化項(パーティション関数とも呼ばれる)の正確な推定は、コントラスト言語-画像事前学習(CLIP)モデルのトレーニングにおける中心的な課題である。
従来の手法は近似に大規模なバッチに依存しており、かなりの計算資源を必要とする。
この問題を緩和するために、各エポックで更新されるサンプルごとの正規化推定器を導入し、更新エンコーダの追跡をブロックワイドに維持する。
しかし、このスキームは、データセットサイズとバッチサイズとの比でスケールする最適化エラーを発生させ、大規模なデータセットや小さなバッチの有効性を制限する。
この制限を克服するため、我々は2つの主要なアイデアに基づいた新しいエレガントな最適化フレームワークであるNeuCLIPを提案する。
(i) $\textbf{reformulating}$ それぞれのサンプルに対する対照的な損失 $\textbf{via convex analysis}$ ログ正規化子を表す補助変数を持つ最小化問題へ。
(ii) $\textbf{transforming}$$$n$補助変数(ここで$n$はデータセットサイズ)に対する結果の最小化を$\textbf{variational analysis}$経由で、ログ正規化子を予測するコンパクトニューラルネットワーク上の最小化に組み込む。
我々はCLIPモデルと補助ネットワークを協調的に訓練する交互最適化アルゴリズムを設計する。
補助ネットワークのアーキテクチャと高速化技術を用いて、NeuCLIPはより正確な正規化器推定を実現し、従来の手法と比較して性能が向上した。
数百万から数十億のサンプルのデータセットにまたがる大規模なCLIPトレーニングに関する大規模な実験は、NeuCLIPが従来の方法より優れていることを実証している。
関連論文リスト
- Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - To Theoretically Understand Transformer-Based In-Context Learning for Optimizing CSMA [26.87533852488578]
バイナリ指数バックオフ方式はWiFi 7で広く使われているが、動的チャネル環境下ではスループットが低下している。
最近のモデルベースアプローチは、既知のノード密度と固定されたノード密度の下でのバックオフ戦略を単純に最適化する。
本稿では、チャネルアクセスを最適化するためのトランスフォーマーベースのインコンテキスト学習(ICL)理論を初めて提案する。
論文 参考訳(メタデータ) (2025-07-31T23:31:23Z) - Deep-ICE: The first globally optimal algorithm for empirical risk minimization of two-layer maxout and ReLU networks [1.7266553199919665]
本稿では,2層最大化ネットワークとReLUネットワークの実証的リスク問題に対する,世界初となる最適アルゴリズムを提案する。
提案アルゴリズムは、小規模データセットに対して、証明可能な正確な解を提供する。
より大きなデータセットを扱うために,データサイズを管理可能なスケールに縮小する新しいコアセット選択手法を提案する。
論文 参考訳(メタデータ) (2025-05-09T02:34:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。