論文の概要: Global Minimizers of Sigmoid Contrastive Loss
- arxiv url: http://arxiv.org/abs/2509.18552v1
- Date: Tue, 23 Sep 2025 02:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.652042
- Title: Global Minimizers of Sigmoid Contrastive Loss
- Title(参考訳): Sigmoid Contrastive Lossの大域的最小化
- Authors: Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy,
- Abstract要約: 我々は,シグモイド損失下でのトレーニング可能な逆温度とバイアスとを同期させることの利点を理論的に説明する。
温度とバイアスは、$(mathsfm, mathsfb_mathsfrel)$-Constellationsと呼ぶような構成のリッチなクラスに対して損失関数をゼロにすることができる。
- 参考スコア(独自算出の注目度): 21.1705493494434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The meta-task of obtaining and aligning representations through contrastive pretraining is steadily gaining importance since its introduction in CLIP and ALIGN. In this paper we theoretically explain the advantages of synchronizing with trainable inverse temperature and bias under the sigmoid loss, as implemented in the recent SigLIP and SigLIP2 models of Google DeepMind. Temperature and bias can drive the loss function to zero for a rich class of configurations that we call $(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$-Constellations. $(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$-Constellations are a novel combinatorial object related to spherical codes and are parametrized by a margin $\mathsf{m}$ and relative bias $\mathsf{b}_{\mathsf{rel}}$. We use our characterization of constellations to theoretically justify the success of SigLIP on retrieval, to explain the modality gap present in SigLIP, and to identify the necessary dimension for producing high-quality representations. Finally, we propose a reparameterization of the sigmoid loss with explicit relative bias, which improves training dynamics in experiments with synthetic data.
- Abstract(参考訳): コントラストプレトレーニングによる表現の獲得と調整というメタタスクは、CLIPやALIGNに導入されて以来、徐々に重要になってきている。
本稿では,最近のGoogle DeepMindのSigLIPモデルとSigLIP2モデルに実装されているように,シグモイド損失下でのトレーニング可能な逆温度とバイアスとを同期する利点を理論的に説明する。
温度とバイアスは、 $(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$-Constellations と呼ぶような構成のリッチなクラスに対して損失関数を 0 に駆動することができる。
$(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$-Constellationsは球面符号に関連する新しい組合せオブジェクトであり、マージン$\mathsf{m}$と相対バイアス$\mathsf{b}_{\mathsf{rel}}$でパラメータ化される。
我々は、星座のキャラクタリゼーションを用いて、SigLIPの検索における成功を理論的に正当化し、SigLIPに存在するモダリティギャップを説明し、高品質な表現を生み出すために必要な次元を特定する。
最後に, 相対バイアスによるシグモイド損失の再パラメータ化を提案し, 合成データを用いた実験のトレーニング力学を改善する。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系の一般設定におけるオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、$mathcalO(N epsilon2 + Mathrmln(m(epsilon)/epsilon2)$のポリシーを後悔する。
力学がコンパクトで実数値のパラメータ集合によってパラメータ化される特別な場合、$mathcalO(sqrt)のポリシー後悔を証明する。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Self-Supervised Scalable Deep Compressed Sensing [24.854496459622787]
圧縮センシングはサンプリングコストを削減するための有望なツールである。
現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データ収集の課題に直面している。
本稿では,新しい$mathbfS$elf-supervised s$mathbfC$alable Deep CS法を提案する。
論文 参考訳(メタデータ) (2023-08-26T06:03:06Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。