論文の概要: CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment
- arxiv url: http://arxiv.org/abs/2508.06434v2
- Date: Thu, 25 Sep 2025 12:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 18:43:23.23173
- Title: CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment
- Title(参考訳): CLIPin: マルチモーダルなセマンティックアライメントのためのCLIPへの非競合的なプラグイン
- Authors: Shengzhu Yang, Jiawei Du, Shuai Lu, Weihang Zhang, Ningli Wang, Huiqi Li,
- Abstract要約: 大規模な自然画像テキストデータセットは、監督の弱いため、しばしば緩やかなセマンティックアライメントに悩まされる。
私たちはCLIPスタイルのアーキテクチャにシームレスに統合できる統合された非コントラストプラグインであるCLIPinを提案する。
2つの共有ロバスト性事前プロジェクタは、コントラスト学習と非コントラスト学習の統合を容易にするために、それぞれ画像とテキストのモダリティのために設計されている。
- 参考スコア(独自算出の注目度): 28.2773807732662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale natural image-text datasets, especially those automatically collected from the web, often suffer from loose semantic alignment due to weak supervision, while medical datasets tend to have high cross-modal correlation but low content diversity. These properties pose a common challenge for contrastive language-image pretraining (CLIP): they hinder the model's ability to learn robust and generalizable representations. In this work, we propose CLIPin, a unified non-contrastive plug-in that can be seamlessly integrated into CLIP-style architectures to improve multimodal semantic alignment, providing stronger supervision and enhancing alignment robustness. Furthermore, two shared pre-projectors are designed for image and text modalities respectively to facilitate the integration of contrastive and non-contrastive learning in a parameter-compromise manner. Extensive experiments on diverse downstream tasks demonstrate the effectiveness and generality of CLIPin as a plug-and-play component compatible with various contrastive frameworks. Code is available at https://github.com/T6Yang/CLIPin.
- Abstract(参考訳): 大規模な自然画像テキストデータセット、特にウェブから自動的に収集されたデータセットは、監督の弱さによって意味的アライメントが緩くなり、医療データセットは高い相互相関性を持つが、内容の多様性は低い傾向にある。
これらの特性は対照的な言語イメージ事前学習(CLIP)において共通の課題となり、モデルが堅牢で一般化可能な表現を学習する能力を妨げている。
本稿では,CLIPスタイルのアーキテクチャにシームレスに統合してマルチモーダルなセマンティックアライメントを改善することで,より強力な監視とアライメントロバスト性向上を実現する,統合された非コントラストプラグインであるCLIPinを提案する。
さらに、2つの共有事前プロジェクタは画像とテキストのモダリティをそれぞれ設計し、パラメータ補完方式でコントラスト学習と非コントラスト学習の統合を容易にする。
さまざまなダウンストリームタスクに関する大規模な実験は、さまざまなコントラストフレームワークと互換性のあるプラグイン・アンド・プレイコンポーネントとしてのCLIPinの有効性と汎用性を示している。
コードはhttps://github.com/T6Yang/CLIPin.comで入手できる。
関連論文リスト
- CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision [0.08699280339422537]
CLIP-Joint-Detectは,エンドツーエンドのジョイントトレーニングを通じて,CLIPスタイルのコントラスト的視覚言語指導を統合するフレームワークである。
軽量並列ヘッドは、CLIP埋め込み空間に領域やグリッドを投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列する。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、最新のYOLO検出器(YOLOv11)を用いた大規模MS 2017ベンチマークでこれを検証した。
論文 参考訳(メタデータ) (2025-12-28T15:21:20Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - PANICL: Mitigating Over-Reliance on Single Prompt in Visual In-Context Learning [38.70994263844236]
Visual In-Context Learning (VICL) は、インコンテキストペア(または例)と呼ばれる入力出力イメージペアを使用して、多様な視覚タスクの実行においてモデルをガイドするクエリイメージと併用する。
VICLは、単一のコンテキスト内のペアに対する過度な信頼性に悩まされることが多く、バイアスや不安定な予測につながることがある。
我々は、複数のコンテキスト内ペアを活用することでこの問題を緩和する一般的なトレーニング不要のフレームワークである、PAtchベースの$k$-Nearestのビジュアル・インコンテキスト・ラーニング(PANICL)を紹介した。
論文 参考訳(メタデータ) (2025-09-26T06:13:40Z) - CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [17.05291662808873]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RankCLIPはCLIPの厳格な1対1マッチングフレームワークを超えて拡張された、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Semantically Contrastive Learning for Low-light Image Enhancement [48.71522073014808]
低照度画像強調(LLE)は、単一のRGB画像の低コントラストと低可視性の問題が好ましくないため、依然として困難である。
LLE(SCL-LLE)のための効果的な意味論的コントラスト学習パラダイムを提案する。
提案手法は6つの独立したクロスシーンデータセット上で,最先端のLLEモデルを上回る。
論文 参考訳(メタデータ) (2021-12-13T07:08:33Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。