論文の概要: On the use of Vision-Language models for Visual Sentiment Analysis: a
study on CLIP
- arxiv url: http://arxiv.org/abs/2310.12062v1
- Date: Wed, 18 Oct 2023 15:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:56:02.864764
- Title: On the use of Vision-Language models for Visual Sentiment Analysis: a
study on CLIP
- Title(参考訳): 視覚知覚分析における視覚言語モデルの利用について:CLIPの検討
- Authors: Cristina Bustos, Carles Civit, Brian Du, Albert Sole-Ribalta, Agata
Lapedriza
- Abstract要約: 本稿では,CLIP埋め込み空間を利用して視覚知覚分析を行う方法について述べる。
私たちは、Visual Sentiment Analysisのための最大で手動でラベル付けされたベンチマークWEBEMOでCLIP-Eモデルをトレーニングします。
以上の結果から,CLIP-EはWEBEMOの細粒度分類においてSOTAモデルより優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.1963472367016426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a study on how to exploit the CLIP embedding space to
perform Visual Sentiment Analysis. We experiment with two architectures built
on top of the CLIP embedding space, which we denote by CLIP-E. We train the
CLIP-E models with WEBEmo, the largest publicly available and manually labeled
benchmark for Visual Sentiment Analysis, and perform two sets of experiments.
First, we test on WEBEmo and compare the CLIP-E architectures with
state-of-the-art (SOTA) models and with CLIP Zero-Shot. Second, we perform
cross dataset evaluation, and test the CLIP-E architectures trained with WEBEmo
on other Visual Sentiment Analysis benchmarks. Our results show that the CLIP-E
approaches outperform SOTA models in WEBEmo fine grained categorization, and
they also generalize better when tested on datasets that have not been seen
during training. Interestingly, we observed that for the FI dataset, CLIP
Zero-Shot produces better accuracies than SOTA models and CLIP-E trained on
WEBEmo. These results motivate several questions that we discuss in this paper,
such as how we should design new benchmarks and evaluate Visual Sentiment
Analysis, and whether we should keep designing tailored Deep Learning models
for Visual Sentiment Analysis or focus our efforts on better using the
knowledge encoded in large vision-language models such as CLIP for this task.
- Abstract(参考訳): 本稿では,CLIP埋め込み空間を利用して視覚知覚分析を行う方法について述べる。
私たちはCLIP埋め込み空間上に構築された2つのアーキテクチャを実験し、CLIP-Eで示します。
私たちは、Visual Sentiment Analysisのための最大で手動でラベル付けされたベンチマークWEBEMOでCLIP-Eモデルをトレーニングし、2つの実験を実行します。
まず、WEBEMOでテストを行い、CLIP-Eアーキテクチャを最先端(SOTA)モデルとCLIP Zero-Shotと比較する。
次に, WEBEMOでトレーニングしたCLIP-Eアーキテクチャを, 他のVisual Sentiment Analysisベンチマークでテストする。
以上の結果から,CLIP-EはWEBEMOの細粒度分類においてSOTAモデルよりも優れており,トレーニング中に見ていないデータセットでテストした場合の一般化も可能であることがわかった。
興味深いことに、FIデータセットの場合、CLIP Zero-ShotはSOTAモデルやWEBEMOでトレーニングされたCLIP-Eよりも精度が高いことが観察された。
これらの結果は、新しいベンチマークを設計し、視覚知覚分析を評価する方法や、視覚知覚分析のためのカスタマイズされたディープラーニングモデルを設計し続けるべきか、また、このタスクのためにCLIPのような大規模視覚言語モデルで符号化された知識をよりよく活用することに注力するか、など、本稿で論じるいくつかの質問を動機付けている。
関連論文リスト
- Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。
この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。
それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2024-10-02T13:26:17Z) - Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。
高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。
SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文 参考訳(メタデータ) (2024-04-12T02:04:34Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:41:00Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。