論文の概要: CLIPPO: Image-and-Language Understanding from Pixels Only
- arxiv url: http://arxiv.org/abs/2212.08045v2
- Date: Sat, 1 Apr 2023 21:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 23:30:55.407628
- Title: CLIPPO: Image-and-Language Understanding from Pixels Only
- Title(参考訳): CLIPPO: ピクセルのみによる画像と言語理解
- Authors: Michael Tschannen, Basil Mustafa, Neil Houlsby
- Abstract要約: 我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
- 参考スコア(独自算出の注目度): 36.433133689137875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models are becoming increasingly effective, in part due to unified
components, such as the Transformer architecture. However, multimodal models
still often consist of many task- and modality-specific pieces and training
procedures. For example, CLIP (Radford et al., 2021) trains independent text
and image towers via a contrastive loss. We explore an additional unification:
the use of a pure pixel-based model to perform image, text, and multimodal
tasks. Our model is trained with contrastive loss alone, so we call it
CLIP-Pixels Only (CLIPPO). CLIPPO uses a single encoder that processes both
regular images and text rendered as images. CLIPPO performs image-based tasks
such as retrieval and zero-shot image classification almost as well as
CLIP-style models, with half the number of parameters and no text-specific
tower or embedding. When trained jointly via image-text contrastive learning
and next-sentence contrastive learning, CLIPPO can perform well on natural
language understanding tasks, without any word-level loss (language modelling
or masked language modelling), outperforming pixel-based prior work.
Surprisingly, CLIPPO can obtain good accuracy in visual question answering,
simply by rendering the question and image together. Finally, we exploit the
fact that CLIPPO does not require a tokenizer to show that it can achieve
strong performance on multilingual multimodal retrieval without modifications.
- Abstract(参考訳): トランスフォーマーアーキテクチャのような統一されたコンポーネントによって、マルチモーダルモデルはますます効果的になっている。
しかし、マルチモーダルモデルは依然として多くのタスクとモダリティ固有の部品と訓練手順で構成されている。
例えば、CLIP (Radford et al., 2021) は、対照的な損失によって独立したテキストとイメージタワーを訓練している。
我々は、画像、テキスト、マルチモーダルタスクの実行に純粋なピクセルベースのモデルを使用することにより、さらなる統一を探求する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
CLIPPOは、通常の画像と画像としてレンダリングされたテキストの両方を処理する単一のエンコーダを使用する。
CLIPPOは、CLIPスタイルのモデルと同様に、検索やゼロショット画像分類などの画像ベースのタスクを実行する。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは、単語レベルの損失(言語モデリングやマスク付き言語モデリング)を伴わずに、自然言語理解タスクでうまく機能し、ピクセルベースの先行処理より優れた性能を発揮する。
意外なことに、CLIPPOは、単に質問と画像をまとめてレンダリングすることで、視覚的質問応答において正確な精度を得ることができる。
最後に、CLIPPOがトークン化を必要とせず、修正なしに多言語マルチモーダル検索において高い性能が得られることを示す事実を利用する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints [15.643898659673036]
汎用性にも拘わらず、CLIPモデルは、マスタイメージをだますものとして、私たちが言うものに対して脆弱であることを示す。
フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。
私たちはCLIPMasterPrintsのマスターイメージが、勾配降下、投影降下、ブラックボックス最適化によってどのようにマイニングされるかを実証する。
論文 参考訳(メタデータ) (2023-07-07T18:54:11Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。