論文の概要: Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness
- arxiv url: http://arxiv.org/abs/2305.05095v1
- Date: Mon, 8 May 2023 23:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:24:47.763185
- Title: Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness
- Title(参考訳): テキストリージョンの削除はCLIPトレーニング効率とロバスト性を改善する
- Authors: Liangliang Cao, Bowen Zhang, Chen Chen, Yinfei Yang, Xianzhi Du,
Wencong Zhang, Zhiyun Lu, Yantao Zheng
- Abstract要約: CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。
CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。
私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
- 参考スコア(独自算出の注目度): 19.77762574325687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CLIP (Contrastive Language-Image Pre-training) model and its variants are
becoming the de facto backbone in many applications. However, training a CLIP
model from hundreds of millions of image-text pairs can be prohibitively
expensive. Furthermore, the conventional CLIP model doesn't differentiate
between the visual semantics and meaning of text regions embedded in images.
This can lead to non-robustness when the text in the embedded region doesn't
match the image's visual appearance. In this paper, we discuss two effective
approaches to improve the efficiency and robustness of CLIP training: (1)
augmenting the training dataset while maintaining the same number of
optimization steps, and (2) filtering out samples that contain text regions in
the image. By doing so, we significantly improve the classification and
retrieval accuracy on public benchmarks like ImageNet and CoCo. Filtering out
images with text regions also protects the model from typographic attacks. To
verify this, we build a new dataset named ImageNet with Adversarial Text
Regions (ImageNet-Attr). Our filter-based CLIP model demonstrates a top-1
accuracy of 68.78\%, outperforming previous models whose accuracy was all below
50\%.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pre-training)モデルとそのバリエーションは多くのアプリケーションにおいて事実上のバックボーンになっている。
しかし、数億のイメージテキストペアからCLIPモデルをトレーニングするのは、極めて高価である。
さらに、従来のCLIPモデルは、画像に埋め込まれたテキスト領域の視覚的意味と意味を区別しない。
これは、埋め込み領域のテキストが画像の視覚的外観と一致しない場合、非破壊性につながる可能性がある。
本稿では,CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。(1)同じ数の最適化ステップを維持しながらトレーニングデータセットを増強し,(2)画像中のテキスト領域を含むサンプルをフィルタリングする。
これにより、ImageNetやCoCoといった公開ベンチマークの分類と検索精度が大幅に向上する。
テキスト領域による画像のフィルタリングも、タイポグラフィー攻撃からモデルを保護する。
これを検証するために、ImageNet with Adversarial Text Regions (ImageNet-Attr) という新しいデータセットを構築した。
フィルタベースのCLIPモデルでは,トップ1の精度が68.78\%であり,その精度が50%以下であった従来モデルよりも優れていた。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。