論文の概要: No Token Left Behind: Explainability-Aided Image Classification and
Generation
- arxiv url: http://arxiv.org/abs/2204.04908v1
- Date: Mon, 11 Apr 2022 07:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 02:49:23.447308
- Title: No Token Left Behind: Explainability-Aided Image Classification and
Generation
- Title(参考訳): トークンが残っていない:説明可能性に基づく画像分類と生成
- Authors: Roni Paiss, Hila Chefer, Lior Wolf
- Abstract要約: ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
- 参考スコア(独自算出の注目度): 79.4957965474334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of zero-shot learning in computer vision has been
revolutionized by the use of image-text matching models. The most notable
example, CLIP, has been widely used for both zero-shot classification and
guiding generative models with a text prompt. However, the zero-shot use of
CLIP is unstable with respect to the phrasing of the input text, making it
necessary to carefully engineer the prompts used. We find that this instability
stems from a selective similarity score, which is based only on a subset of the
semantically meaningful input tokens. To mitigate it, we present a novel
explainability-based approach, which adds a loss term to ensure that CLIP
focuses on all relevant semantic parts of the input, in addition to employing
the CLIP similarity loss used in previous works. When applied to one-shot
classification through prompt engineering, our method yields an improvement in
the recognition rate, without additional training or fine-tuning. Additionally,
we show that CLIP guidance of generative models using our method significantly
improves the generated images. Finally, we demonstrate a novel use of CLIP
guidance for text-based image generation with spatial conditioning on object
location, by requiring the image explainability heatmap for each object to be
confined to a pre-determined bounding box.
- Abstract(参考訳): ゼロショット学習のコンピュータビジョンへの応用は、画像テキストマッチングモデルの使用によって革新されている。
最も注目すべき例はクリップで、ゼロショット分類とテキストプロンプトによる生成モデル誘導の両方に広く使われている。
しかし、入力テキストのフレーズに関してCLIPのゼロショット使用は不安定であり、使用するプロンプトを慎重に設計する必要がある。
この不安定性は、意味論的に意味のある入力トークンのサブセットのみに基づく選択的な類似度スコアに由来する。
そこで本研究では,CLIPが入力のすべての意味的部分に注目することを保証するために,従来のCLIP類似性損失に加えて,新たな説明可能性に基づくアプローチを提案する。
素早い工学的手法によるワンショット分類に適用すると、追加の訓練や微調整なしに認識率の向上が得られる。
また,本手法を用いた生成モデルのクリップガイダンスが生成画像を大幅に改善することを示す。
最後に,対象位置を空間条件で設定したテキストベースの画像生成にCLIPガイダンスを新たに導入し,各対象を予め決定した境界ボックスに制限する画像説明可能性ヒートマップを提案する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Updating CLIP to Prefer Descriptions Over Captions [21.909877614471178]
私たちはCLIPモデルを更新し、キャプションよりも高いスコアを記述に割り当てる。
このモデルは、移動能力を維持しながら盲人や低ビジョンの人々の判断と相関する。
論文 参考訳(メタデータ) (2024-06-12T20:24:51Z) - Anchor-based Robust Finetuning of Vision-Language Models [46.87279531333293]
我々は,その分布外一般化を損なうことなく,視覚言語モデルを微調整することを目指している。
そこで本稿では,リッチな意味情報を用いた補助的監視を用いて,ファインチューン処理の補償を提案する。
本手法は,従来のファインタニングと同様の分散性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T12:10:54Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。