論文の概要: WP-CLIP: Leveraging CLIP to Predict Wölfflin's Principles in Visual Art
- arxiv url: http://arxiv.org/abs/2508.12668v1
- Date: Mon, 18 Aug 2025 07:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.0458
- Title: WP-CLIP: Leveraging CLIP to Predict Wölfflin's Principles in Visual Art
- Title(参考訳): WP-CLIP: Visual ArtにおけるWölfflinの原則予測にCLIPを活用する
- Authors: Abhijay Ghildyal, Li-Yun Wang, Feng Liu,
- Abstract要約: W"オルフリンの5つの原理は、形式解析のための形式的バリエーションを分析するための構造化されたアプローチを提供する。
視覚芸術の5つの原則全てを効果的に予測する既存の指標は存在しない。
大規模データに基づいて事前学習したCLIPがW"オルフリンの原理を理解し予測できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 7.571809800093426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: W\"olfflin's five principles offer a structured approach to analyzing stylistic variations for formal analysis. However, no existing metric effectively predicts all five principles in visual art. Computationally evaluating the visual aspects of a painting requires a metric that can interpret key elements such as color, composition, and thematic choices. Recent advancements in vision-language models (VLMs) have demonstrated their ability to evaluate abstract image attributes, making them promising candidates for this task. In this work, we investigate whether CLIP, pre-trained on large-scale data, can understand and predict W\"olfflin's principles. Our findings indicate that it does not inherently capture such nuanced stylistic elements. To address this, we fine-tune CLIP on annotated datasets of real art images to predict a score for each principle. We evaluate our model, WP-CLIP, on GAN-generated paintings and the Pandora-18K art dataset, demonstrating its ability to generalize across diverse artistic styles. Our results highlight the potential of VLMs for automated art analysis.
- Abstract(参考訳): W\"オルフリンの5つの原則は、形式解析のための形式的なバリエーションを分析するための構造化されたアプローチを提供する。
しかし、視覚芸術の5つの原則全てを効果的に予測する既存の指標は存在しない。
絵画の視覚的側面を計算的に評価するには、色、構成、テーマの選択といった重要な要素を解釈できる計量が必要である。
視覚言語モデル(VLM)の最近の進歩は、抽象的な画像属性を評価する能力を示しており、この課題に対して有望な候補となる。
本研究では,大規模データに基づいて事前学習したCLIPが,W\"オルフリンの原理を理解し,予測できるかどうかを検討する。
以上より,本研究は,このようなニュアンスなスタイル要素を本質的に捉えていないことが示唆された。
これを解決するために、実際のアート画像の注釈付きデータセットにCLIPを微調整し、各原理のスコアを予測する。
我々は,GAN生成絵画とPandora-18Kアートデータセットを用いたWP-CLIPモデルの評価を行い,多種多様な芸術様式をまたいだ一般化の可能性を実証した。
本結果は,自動アート解析におけるVLMの可能性を強調した。
関連論文リスト
- Generalizable Prompt Learning of CLIP: A Brief Overview [17.10893952404166]
この記事では、数発のプロンプト学習に基づくCLIPの概要を紹介する。
このレビューの目的は、CLIPの一般化可能なプロンプトで研究を開始したばかりの研究者への参照を提供することである。
論文 参考訳(メタデータ) (2025-03-03T07:41:41Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification [7.6146285961466]
私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
論文 参考訳(メタデータ) (2022-04-29T17:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。