Fugu-MT 論文翻訳(概要): Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)

論文の概要: Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)

arxiv url: http://arxiv.org/abs/2402.10376v1
Date: Fri, 16 Feb 2024 00:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 18:09:00.857487
Title: Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)
Title（参考訳）: スパース線形概念埋め込み(SpLiCE)を用いたCLIPの解釈
Authors: Usha Bhalla, Alex Oesterling, Suraj Srinivas, Flavio P. Calmon, Himabindu Lakkaraju
Abstract要約: CLIPの潜在空間は高度に構造化されており、CLIP表現を基盤となるセマンティックコンポーネントに分解できることを示す。そこで本研究では,CLIP表現を疎線形に変換する新しい手法であるスパース線形概念埋め込み(SpLiCE)を提案する。
参考スコア（独自算出の注目度）: 23.993903128858832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CLIP embeddings have demonstrated remarkable performance across a wide range of computer vision tasks. However, these high-dimensional, dense vector representations are not easily interpretable, restricting their usefulness in downstream applications that require transparency. In this work, we empirically show that CLIP's latent space is highly structured, and consequently that CLIP representations can be decomposed into their underlying semantic components. We leverage this understanding to propose a novel method, Sparse Linear Concept Embeddings (SpLiCE), for transforming CLIP representations into sparse linear combinations of human-interpretable concepts. Distinct from previous work, SpLiCE does not require concept labels and can be applied post hoc. Through extensive experimentation with multiple real-world datasets, we validate that the representations output by SpLiCE can explain and even replace traditional dense CLIP representations, maintaining equivalent downstream performance while significantly improving their interpretability. We also demonstrate several use cases of SpLiCE representations including detecting spurious correlations, model editing, and quantifying semantic shifts in datasets.
Abstract（参考訳）: CLIPの埋め込みは、幅広いコンピュータビジョンタスクで顕著なパフォーマンスを示している。しかし、これらの高次元で密接なベクトル表現は容易に解釈できないため、透過性を必要とする下流アプリケーションでは有用性が制限される。本研究では,CLIPの潜在空間が高度に構造化されており,CLIP表現を基盤となるセマンティックコンポーネントに分解できることを実証的に示す。我々はこの理解を活用し、CLIP表現を人間の解釈可能な概念の疎線形結合に変換する新しい方法であるスパース線形概念埋め込み(SpLiCE)を提案する。以前の作業とは違って、SpLiCEは概念ラベルを必要とせず、ポストホックで適用することができる。複数の実世界のデータセットを用いて広範な実験を行うことで、SpLiCEが出力する表現が従来のCLIP表現の説明や置き換えを可能にし、等価なダウンストリーム性能を維持しながら、解釈可能性を大幅に向上させることができることを検証する。また、スプリケート相関の検出、モデル編集、データセットのセマンティックシフトの定量化など、SpLiCE表現のいくつかのユースケースについても示す。

関連論文リスト

Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文参考訳（メタデータ） (2025-06-24T22:43:36Z)
Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval [13.31210969917096]
本稿では,Dense Passage Retrieval(DPR)モデルに対する新しい解釈可能性フレームワークを提案する。我々は,各潜伏概念の自然言語記述を生成し,DPRモデルの密埋め込みと問合せ文書類似度スコアの両方の人間の解釈を可能にする。概念レベルスパース検索(CL-SR)は,語彙や意味的ミスマッチ間の堅牢な性能を維持しつつ,高いインデックス空間と計算効率を実現する。
論文参考訳（メタデータ） (2025-05-28T02:50:17Z)
Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文参考訳（メタデータ） (2025-05-27T03:51:37Z)
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-05-07T13:46:34Z)
DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T14:04:09Z)
ULTra: Unveiling Latent Token Interpretability in Transformer-Based Understanding and Segmentation [14.84547724351634]
ULTraはトランスフォーマーの埋め込みを解釈し、意味のある意味的パターンを明らかにするためのフレームワークである。モデルを変更することなく外部変換行列を学習し,セグメンテーション性能を向上する自己教師型トレーニング手法を提案する。我々は、オブジェクト選択や解釈可能なテキスト要約を含む、合成シナリオと実世界のシナリオの両方において、モデル解釈のためのULTraを検証する。
論文参考訳（メタデータ） (2024-11-15T19:36:50Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文参考訳（メタデータ） (2024-07-17T09:52:20Z)
Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。 ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文参考訳（メタデータ） (2024-05-23T13:41:17Z)
Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文参考訳（メタデータ） (2024-05-22T22:03:11Z)
Demystifying Embedding Spaces using Large Language Models [26.91321899603332]
本稿では,埋め込みをより解釈しやすく,広く活用する上での課題に対処する。埋め込みを直接操作するためにLarge Language Models(LLMs)を用いることで、抽象ベクトルを理解可能な物語に変換する。提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。
論文参考訳（メタデータ） (2023-10-06T05:27:28Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Linear Spaces of Meanings: Compositional Structures in Vision-Language Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。まず,幾何学的観点から構成構造を理解するための枠組みを提案する。次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文参考訳（メタデータ） (2023-02-28T08:11:56Z)
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2022-02-02T23:54:26Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。