論文の概要: Canonicalizing Multimodal Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2602.17584v1
- Date: Thu, 19 Feb 2026 18:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.242157
- Title: Canonicalizing Multimodal Contrastive Representation Learning
- Title(参考訳): 正準化マルチモーダルコントラスト表現学習
- Authors: Sharut Gupta, Sanyam Kansal, Stefanie Jegelka, Phillip Isola, Vikas Garg,
- Abstract要約: ここでは,CLIP,SigLIP,FLAVAなどのモデルファミリにおいて,埋め込み空間間の幾何学的関係が存在することを示す。
この発見は、後方互換性のあるモデルアップグレードを可能にし、コストのかかる再埋め込みを回避し、学習された表現のプライバシに影響を及ぼす。
- 参考スコア(独自算出の注目度): 76.15228959754727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As models and data scale, independently trained networks often induce analogous notions of similarity. But, matching similarities is weaker than establishing an explicit correspondence between the representation spaces, especially for multimodal models, where consistency must hold not only within each modality, but also for the learned image-text coupling. We therefore ask: given two independently trained multimodal contrastive models (with encoders $(f, g)$ and $(\widetilde{f},\widetilde{g})$) -- trained on different distributions and with different architectures -- does a systematic geometric relationship exist between their embedding spaces? If so, what form does it take, and does it hold uniformly across modalities? In this work, we show that across model families such as CLIP, SigLIP, and FLAVA, this geometric relationship is well approximated by an orthogonal map (up to a global mean shift), i.e., there exists an orthogonal map $Q$ where $Q^\top Q = I$ such that $\widetilde{f}(x)\approx Q f(x)$ for paired images $x$. Strikingly, the same $Q$ simultaneously aligns the text encoders i.e., $\widetilde{g}(y)\approx Q g(y)$ for texts $y$. Theoretically, we prove that if the multimodal kernel agrees across models on a small anchor set i.e. $\langle f(x), g(y)\rangle \approx \langle \widetilde{f}(x), \widetilde{g}(y)\rangle$, then the two models must be related by a single orthogonal map $Q$ and the same $Q$ maps images and text across models. More broadly, this finding enables backward-compatible model upgrades, avoiding costly re-embedding, and has implications for the privacy of learned representations. Our project page: https://canonical-multimodal.github.io/
- Abstract(参考訳): モデルとデータスケールとして、独立に訓練されたネットワークは、しばしば類似性の類似した概念を誘導する。
しかし、一致した類似性は表現空間間の明示的な対応を確立するよりも弱く、特にマルチモーダルモデルでは、一貫性は各モダリティ内に留まらず、学習された画像とテキストの結合にも保たなければならない。
したがって、2つの独立に訓練されたマルチモーダルコントラストモデル(エンコーダ $(f, g)$ と $(\widetilde{f},\widetilde{g})$) -- 異なる分布と異なるアーキテクチャで訓練された場合、それらの埋め込み空間の間には体系的な幾何学的関係が存在しますか?
もしそうなら、どんな形式が必要で、モダリティ全体にわたって均一に保持されますか?
本研究では、CLIP、SigLIP、FLAVAのようなモデル族全体において、この幾何学的関係は直交写像(大域平均シフトまで)によりよく近似され、すなわち、$Q^\top Q = I$ で$\widetilde{f} となる直交写像 $Q$ が存在することを示す。
(x)\approx Q f
(x)$ for paired images $x$.
興味深いことに、同じ$Q$が同時にテキストエンコーダ、すなわち$\widetilde{g}を調整します。
(y)\approx Q g
(y)$ for texts $y$
理論的には、マルチモーダル核が小さなアンカー集合、すなわち$\langle f 上のモデル間で一致することを証明している。
(x)g
(y)\rangle \approx \langle \widetilde{f}
(x) \widetilde{g}
(y)\rangle$) ならば、2つのモデルは1つの直交写像$Q$と、同じ$Q$でモデル間で画像とテキストをマップしなければならない。
この発見は、後方互換性のあるモデルアップグレードを可能にし、コストのかかる再埋め込みを回避し、学習された表現のプライバシに影響を及ぼす。
プロジェクトページ:https://canonical-multimodal.github.io/
関連論文リスト
- Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity [8.28720658988688]
例えば、$(L,alpha)$-H"older関数は、$mathcalO(dnd/alpha)$, of width $mathcalO(dnd/alpha)$, depth $mathcalO(log(d))$, with $mathcalO(dnd/alpha)$, $mathcalO(dnd/alpha)$, and $mathcalO(dnd/alpha)$, with $mathcal。
論文 参考訳(メタデータ) (2024-09-18T22:05:07Z) - Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
2層ニューラルネットワークの勾配学習により,$f_*$の大規模なサブセットを効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Distributed Saddle-Point Problems Under Similarity [173.19083235638104]
与えられたサブ最適度$epsilon0$は、$Omegabigのマスター/ワーカーネットワークで達成されることを示す。
次に,ネットワークの下位の型(ログオーバまで)に適合するアルゴリズムを提案する。
頑健なロジスティック回帰問題に対して提案アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2021-07-22T14:25:16Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。