Fugu-MT 論文翻訳(概要): What do we learn from inverting CLIP models?

論文の概要: What do we learn from inverting CLIP models?

arxiv url: http://arxiv.org/abs/2403.02580v1
Date: Tue, 5 Mar 2024 01:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:26:55.367771
Title: What do we learn from inverting CLIP models?
Title（参考訳）: CLIPモデルの反転から何を学びますか?
Authors: Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein
Abstract要約: CLIPモデルを反転すると、指定されたターゲットプロンプトとセマンティックアライメントを示すイメージが生成される。これらの逆画像を利用して、CLIPモデルの様々な側面について洞察を得る。
参考スコア（独自算出の注目度）: 116.14073114908614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We employ an inversion-based approach to examine CLIP models. Our examination reveals that inverting CLIP models results in the generation of images that exhibit semantic alignment with the specified target prompts. We leverage these inverted images to gain insights into various aspects of CLIP models, such as their ability to blend concepts and inclusion of gender biases. We notably observe instances of NSFW (Not Safe For Work) images during model inversion. This phenomenon occurs even for semantically innocuous prompts, like "a beautiful landscape," as well as for prompts involving the names of celebrities.
Abstract（参考訳）: 私たちは、CLIPモデルを調べるためにインバージョンベースのアプローチを採用する。そこで本研究では,CLIPモデルの反転により,特定のターゲットプロンプトとのセマンティックアライメントを示す画像が生成されることを明らかにした。これらの逆画像を利用してクリップモデルの様々な側面、例えば概念をブレンドする能力やジェンダーバイアスを包含する能力について洞察を得る。特に,NSFW (Not Safe For Work) 画像のモデル逆転過程を観察する。この現象は「美しい風景」のような意味的に無意味なプロンプトや、有名人の名前を含むプロンプトでも起こる。

関連論文リスト

un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文参考訳（メタデータ） (2024-10-16T20:18:21Z)
Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。 CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:00:09Z)
They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias [34.005902280160356]
本稿では,CLIPの微調整に使用できる合成反事実画像を生成するための新しいフレームワークを提案する。精細調整されたCLIPモデルである$CF_alpha$は、画像検索タスクに対してMaxSkew、MinSkew、NDKLなどのキーフェアネス指標を40～66%改善することを示す。
論文参考訳（メタデータ） (2024-06-17T08:42:19Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints [15.643898659673036]
汎用性にも拘わらず、CLIPモデルは、マスタイメージをだますものとして、私たちが言うものに対して脆弱であることを示す。フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。私たちはCLIPMasterPrintsのマスターイメージが、勾配降下、投影降下、ブラックボックス最適化によってどのようにマイニングされるかを実証する。
論文参考訳（メタデータ） (2023-07-07T18:54:11Z)
Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
What does a platypus look like? Generating customized prompts for zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文参考訳（メタデータ） (2022-09-07T17:27:08Z)
Delving into the Openness of CLIP [35.371811948506796]
コントラスト言語-画像事前学習モデルの開放性を評価する。評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
論文参考訳（メタデータ） (2022-06-04T13:07:30Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。