論文の概要: No Token Left Behind: Explainability-Aided Image Classification and
Generation
- arxiv url: http://arxiv.org/abs/2204.04908v1
- Date: Mon, 11 Apr 2022 07:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 02:49:23.447308
- Title: No Token Left Behind: Explainability-Aided Image Classification and
Generation
- Title(参考訳): トークンが残っていない:説明可能性に基づく画像分類と生成
- Authors: Roni Paiss, Hila Chefer, Lior Wolf
- Abstract要約: ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
- 参考スコア(独自算出の注目度): 79.4957965474334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of zero-shot learning in computer vision has been
revolutionized by the use of image-text matching models. The most notable
example, CLIP, has been widely used for both zero-shot classification and
guiding generative models with a text prompt. However, the zero-shot use of
CLIP is unstable with respect to the phrasing of the input text, making it
necessary to carefully engineer the prompts used. We find that this instability
stems from a selective similarity score, which is based only on a subset of the
semantically meaningful input tokens. To mitigate it, we present a novel
explainability-based approach, which adds a loss term to ensure that CLIP
focuses on all relevant semantic parts of the input, in addition to employing
the CLIP similarity loss used in previous works. When applied to one-shot
classification through prompt engineering, our method yields an improvement in
the recognition rate, without additional training or fine-tuning. Additionally,
we show that CLIP guidance of generative models using our method significantly
improves the generated images. Finally, we demonstrate a novel use of CLIP
guidance for text-based image generation with spatial conditioning on object
location, by requiring the image explainability heatmap for each object to be
confined to a pre-determined bounding box.
- Abstract(参考訳): ゼロショット学習のコンピュータビジョンへの応用は、画像テキストマッチングモデルの使用によって革新されている。
最も注目すべき例はクリップで、ゼロショット分類とテキストプロンプトによる生成モデル誘導の両方に広く使われている。
しかし、入力テキストのフレーズに関してCLIPのゼロショット使用は不安定であり、使用するプロンプトを慎重に設計する必要がある。
この不安定性は、意味論的に意味のある入力トークンのサブセットのみに基づく選択的な類似度スコアに由来する。
そこで本研究では,CLIPが入力のすべての意味的部分に注目することを保証するために,従来のCLIP類似性損失に加えて,新たな説明可能性に基づくアプローチを提案する。
素早い工学的手法によるワンショット分類に適用すると、追加の訓練や微調整なしに認識率の向上が得られる。
また,本手法を用いた生成モデルのクリップガイダンスが生成画像を大幅に改善することを示す。
最後に,対象位置を空間条件で設定したテキストベースの画像生成にCLIPガイダンスを新たに導入し,各対象を予め決定した境界ボックスに制限する画像説明可能性ヒートマップを提案する。
関連論文リスト
- SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。