Fugu-MT 論文翻訳(概要): Disentangling visual and written concepts in CLIP

論文の概要: Disentangling visual and written concepts in CLIP

arxiv url: http://arxiv.org/abs/2206.07835v1
Date: Wed, 15 Jun 2022 22:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-17 15:01:12.233626
Title: Disentangling visual and written concepts in CLIP
Title（参考訳）: CLIPにおける視覚的および記述的概念の分離
Authors: Joanna Materzynska, Antonio Torralba, David Bau
Abstract要約: CLIPネットワークにおける単語画像と自然画像の表現の絡み合いについて検討する。画像エンコーダは、これらの単語によって記述されたシーンの自然な画像と、単語画像とを一致させることができる。一方、CLIPはナンセンスな単語にマッチする能力があり、文字の処理はその意味の処理から切り離されていることを示唆している。
参考スコア（独自算出の注目度）: 38.75918151174347
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The CLIP network measures the similarity between natural text and images; in this work, we investigate the entanglement of the representation of word images and natural images in its image encoder. First, we find that the image encoder has an ability to match word images with natural images of scenes described by those words. This is consistent with previous research that suggests that the meaning and the spelling of a word might be entangled deep within the network. On the other hand, we also find that CLIP has a strong ability to match nonsense words, suggesting that processing of letters is separated from processing of their meaning. To explicitly determine whether the spelling capability of CLIP is separable, we devise a procedure for identifying representation subspaces that selectively isolate or eliminate spelling capabilities. We benchmark our methods against a range of retrieval tasks, and we also test them by measuring the appearance of text in CLIP-guided generated images. We find that our methods are able to cleanly separate spelling capabilities of CLIP from the visual processing of natural images.
Abstract（参考訳）: CLIPネットワークは、自然言語と画像の類似性を測定し、本研究では、その画像エンコーダにおける単語画像と自然言語の表現の絡み合いについて検討する。まず、画像エンコーダは、単語画像と、それらの単語が記述したシーンの自然な画像とをマッチングする能力を有する。これは、単語の意味と綴りがネットワークの奥深くに絡まっていることを示唆する以前の研究と一致している。一方、CLIPはナンセンスな単語にマッチする能力があり、文字の処理はその意味の処理から切り離されていることを示唆している。 CLIPのスペルが分離可能であるかどうかを明確に判断するために、スペル機能を選択的に分離または排除する表現部分空間を識別する手順を考案する。提案手法を様々な検索タスクに対してベンチマークし,CLIP誘導画像中のテキストの出現を計測して評価する。提案手法は,自然画像の視覚処理からCLIPのスペル機能を明確に分離することができる。

関連論文リスト

Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP [44.90909692140324]
私たちはCLIP(Grad-ECLIP)のためのグラディエントに基づく視覚的・テキスト的説明法を提案する。トークンの特徴にチャネル重みと空間重みを適用し,高品質な視覚的説明を行う。また,CLIPファインチューニングにおける微粒化アライメントを高めるため,Grad-ECLIPを用いたアプリケーションを提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:20Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
pOps: Photo-Inspired Diffusion Operators [55.93078592427929]
pOpsは、CLIPイメージの埋め込みに直接セマンティック演算子をトレーニングするフレームワークである。 pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学ぶのに利用できることを示す。
論文参考訳（メタデータ） (2024-06-03T13:09:32Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。 S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。 S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文参考訳（メタデータ） (2023-05-23T14:18:11Z)
CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。 CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文参考訳（メタデータ） (2022-11-28T04:07:17Z)
CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文参考訳（メタデータ） (2022-10-08T05:12:25Z)
Delving into the Openness of CLIP [35.371811948506796]
コントラスト言語-画像事前学習モデルの開放性を評価する。評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
論文参考訳（メタデータ） (2022-06-04T13:07:30Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。