論文の概要: DiffCLIP: Differential Attention Meets CLIP
- arxiv url: http://arxiv.org/abs/2503.06626v1
- Date: Sun, 09 Mar 2025 14:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:04.034001
- Title: DiffCLIP: Differential Attention Meets CLIP
- Title(参考訳): DiffCLIP: 差分注意がCLIPと出会う
- Authors: Hasan Abed Al Kader Hammoud, Bernard Ghanem,
- Abstract要約: 本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 57.396578974401734
- License:
- Abstract: We propose DiffCLIP, a novel vision-language model that extends the differential attention mechanism to CLIP architectures. Differential attention was originally developed for large language models to amplify relevant context while canceling out noisy information. In this work, we integrate this mechanism into CLIP's dual encoder (image and text) framework. With minimal additional parameters, DiffCLIP achieves superior performance on image-text understanding tasks. Across zero-shot classification, retrieval, and robustness benchmarks, DiffCLIP consistently outperforms baseline CLIP models. Notably, these gains come with negligible computational overhead, demonstrating that differential attention can significantly enhance multi-modal representations without sacrificing efficiency. Code can be found at https://github.com/hammoudhasan/DiffCLIP.
- Abstract(参考訳): 本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
微分アテンションは、大きな言語モデルにおいて、ノイズ情報を取り除きながら関連するコンテキストを増幅するために開発された。
本研究では,この機構をCLIPのデュアルエンコーダ(画像とテキスト)フレームワークに統合する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
ゼロショット分類、検索、ロバストネスベンチマークの他、DiffCLIPはベースラインCLIPモデルよりも一貫して優れている。
特に、これらのゲインには無視可能な計算オーバーヘッドが伴い、差分注意が効率を犠牲にすることなく、マルチモーダル表現を著しく向上させることができることを示した。
コードはhttps://github.com/hammoudhasan/DiffCLIPで見ることができる。
関連論文リスト
- Disentangling CLIP Features for Enhanced Localized Understanding [58.73850193789384]
提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。
COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。
様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data [69.20254987896674]
SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。
本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-10T14:26:42Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。