Fugu-MT 論文翻訳(概要): A Closer Look at the Explainability of Contrastive Language-Image Pre-training

論文の概要: A Closer Look at the Explainability of Contrastive Language-Image Pre-training

arxiv url: http://arxiv.org/abs/2304.05653v2
Date: Mon, 16 Sep 2024 09:10:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 05:51:13.981822
Title: A Closer Look at the Explainability of Contrastive Language-Image Pre-training
Title（参考訳）: コントラスト言語-画像事前学習の説明可能性について
Authors: Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li,
Abstract要約: Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。本稿では,CLIP surgery for reliable CAMを提案する。
参考スコア（独自算出の注目度）: 16.10032166963232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive language-image pre-training (CLIP) is a powerful vision-language model that has shown great benefits for various tasks. However, we have identified some issues with its explainability, which undermine its credibility and limit the capacity for related tasks. Specifically, we find that CLIP tends to focus on background regions rather than foregrounds, with noisy activations at irrelevant positions on the visualization results. These phenomena conflict with conventional explainability methods based on the class attention map (CAM), where the raw model can highlight the local foreground regions using global supervision without alignment. To address these problems, we take a closer look at its architecture and features. Based on thorough analyses, we find the raw self-attentions link to inconsistent semantic regions, resulting in the opposite visualization. Besides, the noisy activations are owing to redundant features among categories. Building on these insights, we propose the CLIP Surgery for reliable CAM, a method that allows surgery-like modifications to the inference architecture and features, without further fine-tuning as classical CAM methods. This approach significantly improves the explainability of CLIP, surpassing existing methods by large margins. Besides, it enables multimodal visualization and extends the capacity of raw CLIP on open-vocabulary tasks without extra alignment. The code is available at https://github.com/xmed-lab/CLIP_Surgery.
Abstract（参考訳）: Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。しかし、その信頼性を損なうような説明可能性の問題や、関連するタスクのキャパシティの制限が指摘されている。特に,CLIPは前景よりも背景領域に焦点をあてる傾向があり,可視化結果に無関係な位置でノイズが生じる傾向にある。これらの現象は,クラスアテンションマップ(CAM)に基づく従来の説明可能性手法と矛盾する。これらの問題に対処するために、アーキテクチャと機能について詳しく見ていきます。徹底的な分析により、生の自己注意が一貫性のない意味領域に結びついていることが分かり、その逆の可視化結果となる。さらに、ノイズのあるアクティベーションは、カテゴリ間の冗長な特徴のためである。これらの知見に基づいて,従来のCAM法のように微調整を行なわずに,推論アーキテクチャや特徴に対する手術様の修正を可能にするCLIP surgery for reliable CAMを提案する。このアプローチはCLIPの説明可能性を大幅に改善し、既存のメソッドを大きなマージンで上回る。さらに、マルチモーダルな可視化を可能にし、余分なアライメントなしでオープン語彙タスクで生のCLIPのキャパシティを拡張する。コードはhttps://github.com/xmed-lab/CLIP_Surgery.comで公開されている。

関連論文リスト

Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective [47.99651635870674]
本研究では,人間の注意を標的領域へ向けて注意を向けるために,注意喚起行動のエミュレートを行うトレーニングフリーアプローチを提案する。提案手法は,高い推論効率を維持しつつ,8つのベンチマーク上でのSOTA性能を実現する。
論文参考訳（メタデータ） (2025-11-20T09:16:33Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach [43.419607730361996]
CLIPのようなビジョンランゲージモデル(VLM)は、対照的な学習を通じて、横断的なアライメントを実現する。伝統的なプロンプトエンジニアリングは、きめ細かいカテゴリラベルに依存しており、きめ細かい局所的意味論を無視している。そこで我々は,CLIPが局所化された視覚ディスクリプタを処理できるプラグイン・アンド・プレイソリューションを提案する。
論文参考訳（メタデータ） (2025-07-04T10:24:26Z)
CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。 CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文参考訳（メタデータ） (2025-05-26T19:09:33Z)
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-05-07T13:46:34Z)
Disentangling CLIP Features for Enhanced Localized Understanding [58.73850193789384]
提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。 COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
論文参考訳（メタデータ） (2025-02-05T08:20:31Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。 RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文参考訳（メタデータ） (2024-11-24T14:14:14Z)
Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-10-14T21:01:01Z)
Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。パッチ間の自己相関を補正することで、局所的な特徴認識を高める。実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文参考訳（メタデータ） (2024-07-11T08:12:16Z)
CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文参考訳（メタデータ） (2024-04-15T10:19:39Z)
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文参考訳（メタデータ） (2024-04-12T01:08:04Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文参考訳（メタデータ） (2023-08-30T10:35:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。