論文の概要: CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification
- arxiv url: http://arxiv.org/abs/2204.14244v1
- Date: Fri, 29 Apr 2022 17:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:37:14.082502
- Title: CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification
- Title(参考訳): CLIP-Art:ファイングラインドアート分類のためのコントラスト前訓練
- Authors: Marcos V. Conde, Kerem Turgutlu
- Abstract要約: 私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing computer vision research in artwork struggles with artwork's
fine-grained attributes recognition and lack of curated annotated datasets due
to their costly creation. To the best of our knowledge, we are one of the first
methods to use CLIP (Contrastive Language-Image Pre-Training) to train a neural
network on a variety of artwork images and text descriptions pairs. CLIP is
able to learn directly from free-form art descriptions, or, if available,
curated fine-grained labels. Model's zero-shot capability allows predicting
accurate natural language description for a given image, without directly
optimizing for the task. Our approach aims to solve 2 challenges: instance
retrieval and fine-grained artwork attribute recognition. We use the iMet
Dataset, which we consider the largest annotated artwork dataset. In this
benchmark we achieved competitive results using only self-supervision.
- Abstract(参考訳): アートワークにおける既存のコンピュータビジョン研究は、アートワークの細かな属性認識と、そのコストのかかる作成のために注釈付きデータセットのキュレーションの欠如に苦しむ。
私たちの知る限り、私たちはCLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
CLIPは、フリーフォームのアート記述や、もし利用可能であれば、きめ細かいラベルから直接学習することができる。
Modelのゼロショット機能は、タスクを直接最適化することなく、与えられた画像の正確な自然言語記述を予測できる。
このアプローチは,インスタンス検索と細粒度アーティファクト属性認識という2つの課題を解決することを目指している。
iMet Datasetは、最大の注釈付きアートワークデータセットであると考えています。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Exploiting CLIP-based Multi-modal Approach for Artwork Classification
and Retrieval [29.419743866789187]
我々は、Web上の公開リソースからクロールされたアート画像のデータセットであるNoisyArtデータセットに対して、徹底的な実験を行う。
このようなデータセット上でCLIPは、(ゼロショット)分類に関する印象的な結果と、アート・トゥ・アートワークと記述・トゥ・アートドメインの両方において有望な結果を達成する。
論文 参考訳(メタデータ) (2023-09-21T14:29:44Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。