論文の概要: Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning
- arxiv url: http://arxiv.org/abs/2601.20075v1
- Date: Tue, 27 Jan 2026 21:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.673251
- Title: Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning
- Title(参考訳): Sparse CLIP: コントラスト学習における解釈可能性と性能の最適化
- Authors: Chuan Qin, Constantin Venhoff, Sonia Joseph, Fanyi Xiao, Stefan Scherer,
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は視覚言語表現学習の基盤となっている。
CLIPの密度が高く不透明な潜在表現は、重要な解釈可能性の課題を引き起こす。
本稿では,CLIPトレーニングに空間性を直接統合し,解釈可能かつ実行可能である表現を生成する,シンプルで効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.31435293510471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in vision-language representation learning, powering diverse downstream tasks and serving as the default vision backbone in multimodal large language models (MLLMs). Despite its success, CLIP's dense and opaque latent representations pose significant interpretability challenges. A common assumption is that interpretability and performance are in tension: enforcing sparsity during training degrades accuracy, motivating recent post-hoc approaches such as Sparse Autoencoders (SAEs). However, these post-hoc approaches often suffer from degraded downstream performance and loss of CLIP's inherent multimodal capabilities, with most learned features remaining unimodal. We propose a simple yet effective approach that integrates sparsity directly into CLIP training, yielding representations that are both interpretable and performant. Compared to SAEs, our Sparse CLIP representations preserve strong downstream task performance, achieve superior interpretability, and retain multimodal capabilities. We show that multimodal sparse features enable straightforward semantic concept alignment and reveal training dynamics of how cross-modal knowledge emerges. Finally, as a proof of concept, we train a vision-language model on sparse CLIP representations that enables interpretable, vision-based steering capabilities. Our findings challenge conventional wisdom that interpretability requires sacrificing accuracy and demonstrate that interpretability and performance can be co-optimized, offering a promising design principle for future models.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は視覚言語表現学習の基盤となり、様々な下流タスクに電力を供給し、マルチモーダル大言語モデル(MLLM)のデフォルトビジョンバックボーンとして機能している。
その成功にもかかわらず、CLIPの密度が高く不透明な潜伏表現は、重大な解釈可能性の問題を引き起こす。
トレーニング中に間隔を縮めることで精度が低下し、スパースオートエンコーダ(SAE)のような最近のポストホックなアプローチが動機になる。
しかし、これらのポストホックなアプローチは、ダウンストリームのパフォーマンス低下とCLIP固有のマルチモーダル機能の欠如に悩まされることが多く、ほとんどの学習された機能はそのままである。
本稿では,CLIPトレーニングに空間性を直接統合し,解釈可能かつ実行可能である表現を生成する,シンプルで効果的なアプローチを提案する。
SAEと比較して、当社のSparse CLIP表現は、ダウンストリームタスクのパフォーマンスを強く保ち、より優れた解釈性を実現し、マルチモーダル能力を保ちます。
マルチモーダルスパース機能により, セマンティックな概念のアライメントが可能になり, クロスモーダルな知識の出現に関するトレーニングのダイナミクスを明らかにする。
最後に、概念実証として、解釈可能な視覚ベースのステアリング機能を実現するために、スパースCLIP表現で視覚言語モデルを訓練する。
我々の研究は、解釈可能性には精度を犠牲にする必要があるという従来の知恵に挑戦し、解釈可能性と性能が共最適化可能であることを実証し、将来のモデルに有望な設計原理を提供する。
関連論文リスト
- Scaling Language-Centric Omnimodal Representation Learning [26.999264997449586]
大規模言語モデル (MLLM) を利用したマルチモーダル埋め込み手法は, 比較学習 (CL) によって微調整され, 有望な結果が得られた。
この研究は、MLLMに基づくアプローチの重要な利点は、生成前訓練中に達成される暗黙の相互モーダルアライメントに起因していると主張している。
我々はLCO-Embと呼ばれる言語中心のOmnimodal Embeddingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:53:52Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚言語学習と差別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
本フレームワークは,自己教師型学習パスにおけるネガティブな例に頼らず,Webスクラッドデータに特化して動作するように設計されている。
様々な視覚的下流タスクにおけるハーモニーの評価を行い、ベースラインCLIPを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-23T07:18:08Z) - Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) [22.364723506539974]
ここでは,CLIPの潜在空間のセマンティック構造を利用して解釈可能であることを示す。
本稿では,CLIP表現を,人間の解釈可能な概念の疎線形結合に変換するための新しい手法Sparse Linear Concept Embeddingsを提案する。
論文 参考訳(メタデータ) (2024-02-16T00:04:36Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。