論文の概要: Teaching CLIP to Count to Ten
- arxiv url: http://arxiv.org/abs/2302.12066v1
- Date: Thu, 23 Feb 2023 14:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:47:59.359822
- Title: Teaching CLIP to Count to Ten
- Title(参考訳): CLIPに10のカウントを教える
- Authors: Roni Paiss, Ariel Ephrat, Omer Tov, Shiran Zada, Inbar Mosseri, Michal
Irani and Tali Dekel
- Abstract要約: 大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
- 参考スコア(独自算出の注目度): 18.703050317383322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs), such as CLIP, learn rich joint
image-text representations, facilitating advances in numerous downstream tasks,
including zero-shot classification and text-to-image generation. Nevertheless,
existing VLMs exhibit a prominent well-documented limitation - they fail to
encapsulate compositional concepts such as counting. We introduce a simple yet
effective method to improve the quantitative understanding of VLMs, while
maintaining their overall performance on common benchmarks. Specifically, we
propose a new counting-contrastive loss used to finetune a pre-trained VLM in
tandem with its original objective. Our counting loss is deployed over
automatically-created counterfactual examples, each consisting of an image and
a caption containing an incorrect object count. For example, an image depicting
three dogs is paired with the caption "Six dogs playing in the yard". Our loss
encourages discrimination between the correct caption and its counterfactual
variant which serves as a hard negative example. To the best of our knowledge,
this work is the first to extend CLIP's capabilities to object counting.
Furthermore, we introduce "CountBench" - a new image-text counting benchmark
for evaluating a model's understanding of object counting. We demonstrate a
significant improvement over state-of-the-art baseline models on this task.
Finally, we leverage our count-aware CLIP model for image retrieval and
text-conditioned image generation, demonstrating that our model can produce
specific counts of objects more reliably than existing ones.
- Abstract(参考訳): CLIPのような大規模な視覚言語モデル(VLM)は、リッチな共同画像テキスト表現を学び、ゼロショット分類やテキスト・ツー・イメージ生成など、多くの下流タスクの進歩を促進する。
それでも、既存のVLMは文書化された限界を顕著に示しており、カウントのような構成概念をカプセル化できない。
本稿では,VLMの定量的理解を改善するための簡易かつ効果的な手法を提案する。
具体的には,訓練済みのVLMを本来の目的に合わせて微調整するために,新たなカウントコントラスト損失を提案する。
私たちの計数損失は、画像と不正確なオブジェクト数を含むキャプションからなる、自動生成された偽の例にデプロイされます。
例えば、3匹の犬を描いた画像は、「庭で遊んでいる6匹の犬」というキャプションと組み合わせられる。
我々の損失は、正しいキャプションとその否定的な例として機能する偽物との区別を促進する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
さらに,モデルのオブジェクトカウントに対する理解度を評価するための新しい画像テキストカウントベンチマーク「countbench」を提案する。
この課題に対する最先端のベースラインモデルに対する大幅な改善を示す。
最後に,画像検索やテキストコンディション画像生成にカウントアウェアクリップモデルを活用することで,既存のモデルよりも特定のオブジェクト数を高い信頼性で生成できることを実証する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Zero-shot Object Counting with Good Exemplars [35.7544908318547]
Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。
視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。
VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
論文 参考訳(メタデータ) (2024-07-06T03:37:22Z) - CountCLIP -- [Re] Teaching CLIP to Count to Ten [0.0]
本稿では,「10人へのCLIP教育」について検討する。
画像中のゼロショットカウント精度を向上させるために、CLIPモデルを微調整する方法を提供する。
より少ない計算資源でトレーニングデータの小さなサブセットでモデルの性能を向上させる。
論文 参考訳(メタデータ) (2024-06-05T19:05:08Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。