論文の概要: CLIMP: Contrastive Language-Image Mamba Pretraining
- arxiv url: http://arxiv.org/abs/2601.06891v1
- Date: Sun, 11 Jan 2026 12:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.053689
- Title: CLIMP: Contrastive Language-Image Mamba Pretraining
- Title(参考訳): CLIMP: コントラスト言語によるイメージマンバ事前トレーニング
- Authors: Nimrod Shabtay, Itamar Zimerman, Eli Schwartz, Raja Giryes,
- Abstract要約: 視覚とテキストエンコーダをMambaに置き換えた初めての完全マンバベースのコントラスト型視覚言語モデルであるCLIMPを提案する。
マンバは視覚的空間誘導バイアスを捉え、刺激的な相関への依存を減らす。
以上の結果から,Mambaは視覚言語学習に有利な特性を示し,TransformerベースのCLIPの代替となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 36.08578864192881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) relies on Vision Transformers whose attention mechanism is susceptible to spurious correlations, and scales quadratically with resolution. To address these limitations, We present CLIMP, the first fully Mamba-based contrastive vision-language model that replaces both the vision and text encoders with Mamba. The new architecture encodes sequential structure in both vision and language, with VMamba capturing visual spatial inductive biases, reducing reliance on spurious correlations and producing an embedding space favorable for cross-modal retrieval and out-of-distribution robustness-surpassing OpenAI's CLIP-ViT-B by 7.5% on ImageNet-O. CLIMP naturally supports variable input resolutions without positional encoding interpolation or specialized training, achieving up to 6.6% higher retrieval accuracy at 16x training resolution while using 5x less memory and 1.8x fewer FLOPs. The autoregressive text encoder further overcomes CLIP's fixed context limitation, enabling dense captioning retrieval. Our findings suggest that Mamba exhibits advantageous properties for vision-language learning, making it a compelling alternative to Transformer-based CLIP.
- Abstract(参考訳): 対照的な言語-画像事前学習(CLIP)は、注意機構が刺激的な相関に影響を受けやすい視覚変換器に依存し、分解能と2次的にスケールする。
これらの制約に対処するため,最初の完全にマンバをベースとしたコントラスト型視覚言語モデルであるCLIMPを,視覚エンコーダとテキストエンコーダの両方をMambaに置き換える。
新しいアーキテクチャは、視覚と言語の両方でシーケンシャルな構造をエンコードし、VMambaは視覚的な空間的帰納バイアスをキャプチャし、スプリアス相関への依存を減らし、クロスモーダル検索やOpenAIのCLIP-ViT-BをImageNet-Oで7.5%削減した。
CLIMPは、位置符号化補間や特別な訓練なしに、可変入力解像度を自然にサポートし、最大6.6%の精度で16倍のトレーニング解像度を実現し、5倍のメモリと1.8倍のFLOPを使用する。
自動回帰テキストエンコーダは、CLIPの固定されたコンテキスト制限をさらに克服し、密度の高いキャプション検索を可能にする。
以上の結果から,Mambaは視覚言語学習に有利な特性を示し,TransformerベースのCLIPの代替となる可能性が示唆された。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。