論文の概要: Not All Attention Heads Are What You Need: Refining CLIP's Image Representation with Attention Ablation
- arxiv url: http://arxiv.org/abs/2507.00537v1
- Date: Tue, 01 Jul 2025 07:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.530018
- Title: Not All Attention Heads Are What You Need: Refining CLIP's Image Representation with Attention Ablation
- Title(参考訳): 注意の頭がすべて必要なもの:CLIPのイメージ表現をアテンション・アブレーションで書き換える
- Authors: Feng Lin, Marco Chen, Haokui Zhang, Xiaotian Yu, Guangming Lu, Rong Xiao,
- Abstract要約: AATは、表現品質を高めるために、系統的に有害な注意を識別し、非難する。
実験では、AATがダウンストリームタスクのパフォーマンスを継続的に改善していることが示されている。
結果は、大規模視覚言語モデルを効果的に洗練するAATの可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 28.056444681574078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the role of attention heads in CLIP's image encoder. While CLIP has exhibited robust performance across diverse applications, we hypothesize that certain attention heads negatively affect final representations and that ablating them can improve performance in downstream tasks. To capitalize on this insight, we propose a simple yet effective method, called Attention Ablation Technique (AAT), to suppress the contribution of specific heads by manipulating attention weights. By integrating two alternative strategies tailored for different application scenarios, AAT systematically identifies and ablates detrimental attention heads to enhance representation quality. Experiments demonstrate that AAT consistently improves downstream task performance across various domains, boosting recall rate by up to 11.1% on CLIP-family models for cross-modal retrieval. The results highlight the potential of AAT to effectively refine large-scale vision-language models with virtually no increase in inference cost.
- Abstract(参考訳): 本稿では,CLIP画像エンコーダにおけるアテンションヘッドの役割について検討する。
CLIPは様々なアプリケーションにまたがって堅牢な性能を示してきたが、特定の注意が最終表現に悪影響を及ぼし、それを非難することで下流タスクのパフォーマンスが向上する、という仮説を立てた。
この知見を活かすため,注意重みを操作することで特定の頭部の寄与を抑制するために,注意吸収法 (AAT) と呼ばれる簡易かつ効果的な手法を提案する。
異なるアプリケーションシナリオに適した2つの代替戦略を統合することで、AATは、表現品質を高めるために、系統的に有害な注意を識別し、非難する。
実験により、AATは様々な領域にわたるダウンストリームタスクのパフォーマンスを一貫して改善し、クロスモーダル検索のためのCLIPファミリーモデルでリコールレートを最大11.1%向上させることが示された。
その結果、AATが推論コストを実質的に増加させることなく、大規模視覚言語モデルを効果的に洗練する可能性を浮き彫りにした。
関連論文リスト
- ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models [14.657194214702473]
本稿では,最もタスクに敏感なアテンションヘッドをローカライズし,これらのヘッドに対するアテンショントレーニングの更新を制限したアルゴリズムを提案する。
実験の結果,3つのタスクのベースラインよりも2%の性能向上を実現しつつ,微調整中に注目パラメータの10%しか活性化しないことがわかった。
論文 参考訳(メタデータ) (2025-05-24T17:19:34Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。