論文の概要: What do we learn from inverting CLIP models?
- arxiv url: http://arxiv.org/abs/2403.02580v1
- Date: Tue, 5 Mar 2024 01:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:26:55.367771
- Title: What do we learn from inverting CLIP models?
- Title(参考訳): CLIPモデルの反転から何を学びますか?
- Authors: Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom
Goldstein
- Abstract要約: CLIPモデルを反転すると、指定されたターゲットプロンプトとセマンティックアライメントを示すイメージが生成される。
これらの逆画像を利用して、CLIPモデルの様々な側面について洞察を得る。
- 参考スコア(独自算出の注目度): 116.14073114908614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We employ an inversion-based approach to examine CLIP models. Our examination
reveals that inverting CLIP models results in the generation of images that
exhibit semantic alignment with the specified target prompts. We leverage these
inverted images to gain insights into various aspects of CLIP models, such as
their ability to blend concepts and inclusion of gender biases. We notably
observe instances of NSFW (Not Safe For Work) images during model inversion.
This phenomenon occurs even for semantically innocuous prompts, like "a
beautiful landscape," as well as for prompts involving the names of
celebrities.
- Abstract(参考訳): 私たちは、CLIPモデルを調べるためにインバージョンベースのアプローチを採用する。
そこで本研究では,CLIPモデルの反転により,特定のターゲットプロンプトとのセマンティックアライメントを示す画像が生成されることを明らかにした。
これらの逆画像を利用してクリップモデルの様々な側面、例えば概念をブレンドする能力やジェンダーバイアスを包含する能力について洞察を得る。
特に,NSFW (Not Safe For Work) 画像のモデル逆転過程を観察する。
この現象は「美しい風景」のような意味的に無意味なプロンプトや、有名人の名前を含むプロンプトでも起こる。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIPMasterPrints: Fooling Contrastive Language-Image Pre-training Using
Latent Variable Evolution [7.844709223688294]
コントラスト言語-画像事前学習モデルは、マスターイメージを騙すのに脆弱であることを示す。
フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。
我々はCLIPと関連するマルチモーダルアプローチにおけるモダリティギャップの緩和について論じる。
論文 参考訳(メタデータ) (2023-07-07T18:54:11Z) - When are Lemons Purple? The Concept Association Bias of CLIP [1.933681537640272]
コンセプト・アソシエーション・バイアス(CAB)と呼ばれるCLIPの現象について検討する。
CABは、与えられた画像に2つの概念が存在するのに対して、テキストプロンプトは1つの概念のみを含む場合、特に顕著である。
私たちは、CLIPが画像とテキストの埋め込みをまたいでより深い構造を学べるようになれば、CABは大幅に軽減されることを示した。
論文 参考訳(メタデータ) (2022-12-22T21:27:12Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Delving into the Openness of CLIP [35.371811948506796]
コントラスト言語-画像事前学習モデルの開放性を評価する。
評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。
調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
論文 参考訳(メタデータ) (2022-06-04T13:07:30Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。