論文の概要: Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity
- arxiv url: http://arxiv.org/abs/2510.15508v1
- Date: Fri, 17 Oct 2025 10:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.57423
- Title: Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity
- Title(参考訳): 最適類似性の線形構造を利用したCLIPの理論的精製
- Authors: Naoki Yoshida, Satoshi Hayakawa, Yuhta Takida, Toshimitsu Uesaka, Hiromi Wakaki, Yuki Mitsufuji,
- Abstract要約: 本稿では,CLIPなどのマルチモーダルコントラスト事前学習フレームワークにおける類似性メカニズムの強化を提案する。
現在の実装では、2つのモード間のポイントワイド相互情報(PMI)の基盤となる線形構造を十分に活用できない。
- 参考スコア(独自算出の注目度): 38.45549066265622
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we propose an enhancement to the similarity computation mechanism in multi-modal contrastive pretraining frameworks such as CLIP. Prior theoretical research has demonstrated that the optimal similarity metrics between paired modalities should correspond to the pointwise mutual information (PMI) between the two modalities. However, the current implementations of CLIP and its variants fail to fully utilize the underlying linear structure of PMI. We therefore propose KME-CLIP, which leverages this structure through the inner product in a reproducing kernel Hilbert space. We theoretically prove that our method can approximate PMI with arbitrary accuracy and empirically demonstrate that our approach overall outperforms the standard CLIP formulation across several retrieval and classification tasks.
- Abstract(参考訳): 本研究では,CLIPなどのマルチモーダルコントラスト事前学習フレームワークにおける類似性計算機構の強化を提案する。
以前の理論的研究は、ペア化されたモダリティ間の最適な類似度は、2つのモダリティ間のポイントワイド相互情報(PMI)に対応するべきであることを示した。
しかし、現在のCLIPとその変種の実装は、PMIの根底にある線形構造を完全に活用することができない。
そこで我々は、再現されたカーネルヒルベルト空間の内積を通してこの構造を利用するKME-CLIPを提案する。
提案手法が任意の精度でPMIを近似できることを理論的に証明し,本手法がいくつかの検索および分類タスクにおいて標準CLIPの定式化よりも優れていることを実証した。
関連論文リスト
- Self-Supervised Representation Learning as Mutual Information Maximization [12.795838767116384]
自己指導型表現学習(SSRL)は、顕著な経験的成功を示している。
最近の研究は、情報理論の目的を検証してSSRL法を統一しようと試みている。
予測器ネットワーク、停止段階演算、統計正則化器といったアーキテクチャ要素は、しばしば経験的に動機づけられた付加物と見なされる。
論文 参考訳(メタデータ) (2025-10-01T18:18:14Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Learning Invariant Causal Mechanism from Vision-Language Models [14.0158707862717]
学習環境における不変要因と変動要因の因果関係は,試験環境と異なることを示す。
CLIP(CLIP-ICM)フレームワークの不変因果機構を提案する。
提案手法は,CLIPの信頼性を高めるため,シンプルだが強力な拡張を提供する。
論文 参考訳(メタデータ) (2024-05-24T07:22:35Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design [8.943418808959494]
我々は,広く使用されているサンプリングベースモデル予測経路積分制御(MPPI)法の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
我々の理論解析は、サンプリングに基づく新しいMPCアルゴリズム、CoVo-MPCに直結する。
実証的には、CoVo-MPCはシミュレーションと現実世界のクワッドアジャイルコントロールの両方で標準MPPIを43~54%上回っている。
論文 参考訳(メタデータ) (2024-01-14T21:10:59Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。