論文の概要: Have Large Vision-Language Models Mastered Art History?
- arxiv url: http://arxiv.org/abs/2409.03521v1
- Date: Thu, 5 Sep 2024 13:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:28:22.300745
- Title: Have Large Vision-Language Models Mastered Art History?
- Title(参考訳): 美術史をマスターする大規模視覚言語モデルはあるか?
- Authors: Ombretta Strafforello, Derya Soydaner, Michiel Willems, Anne-Sofie Maerten, Stefanie De Winter,
- Abstract要約: 美術史家たちは長い間、芸術のユニークな側面を研究しており、スタイル予測はその分野の重要な要素である。
本稿では,視覚的およびテキスト的データを統合した大規模視覚言語モデルを用いて,絵画の美術的歴史的特性を効果的に予測できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.
- Abstract(参考訳): VLM(Big Vision-Language Models)の出現は、最近、複数の領域にまたがる画像分類において、新たなベースラインを確立した。
しかし、美術史家によって伝統的に習得された領域である絵画の美術様式分類(特に美術様式分類)の特定の作業におけるVLMのパフォーマンスはまだ調査されていない。
アートワークは、自然のイメージと比較して、その本質的に複雑で多様な構造を特徴とし、様々な構成やスタイルが特徴である。
美術史家たちは長い間、芸術のユニークな側面を研究してきたが、スタイル予測はその分野の重要な要素であった。
本稿では,視覚的およびテキスト的データを統合した大規模なVLMが,絵画の美術的歴史的特性を効果的に予測できるかどうかを考察する。
CLIP, LLaVA, OpenFlamingo, GPT-4oの4つのVLMの詳細な分析を行い, アートスタイル, 著者, タイムのゼロショット分類に焦点をあてた。
さらに,美術史家らによって研究された中心的な絵画を含む,精巧な試作品群であるArTestについて紹介する。
関連論文リスト
- APDDv2: Aesthetics of Paintings and Drawings Dataset with Artist Labeled Scores and Comments [45.57709215036539]
Aesthetics Paintings and Drawings dataset (APDD)は,24の異なる芸術カテゴリーと10の美的属性を含む最初の総合的な絵画コレクションである。
APDDv2は画像コーパスを拡張し、アノテーションの品質を改善し、詳細な言語コメントを特徴としている。
本稿では,ArtCLIP(Art Assessment Network for Specific Painting Styles)の改訂版について紹介する。
論文 参考訳(メタデータ) (2024-11-13T11:46:42Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models [47.19481598385283]
ArtSavantは、ウィキアートの作品の参照データセットと比較することで、アーティストのユニークなスタイルを決定するツールである。
そこで我々は,3つの人気テキスト・画像生成モデルにまたがる芸術的スタイルの複製の頻度を定量的に把握するために,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2024-04-11T17:59:43Z) - Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。
我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。
このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文 参考訳(メタデータ) (2023-05-08T17:58:27Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - Towards mapping the contemporary art world with ArtLM: an art-specific
NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。
広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。
また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文 参考訳(メタデータ) (2022-12-14T09:26:07Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Docent: A content-based recommendation system to discover contemporary
art [0.8782885374383763]
本稿では,アート作品の画像とアーティストのコンテキストメタデータに依存する,現代美術のコンテントベースレコメンデーションシステムを提案する。
私たちは、高度な、そしてアート特有の情報を収集し、注釈付けしたアートワークを収集し、モデルをトレーニングするために使用したユニークなデータベースを作成しました。
アートスペシャリストのチームによる評価の結果、意味のあるアート作品の75%の平均的な最終評価が得られました。
論文 参考訳(メタデータ) (2022-07-12T16:26:27Z) - Demographic Influences on Contemporary Art with Unsupervised Style
Embeddings [25.107166631583212]
contempArtは絵画と図面のコレクションであり、Instagram上のソーシャル接続と追加の社会デマグラフィー情報に基づく詳細なグラフネットワークである。
画像の教師なしスタイルの埋め込みを生成するのに適した3つの手法を評価し,残りのデータと相関する。
論文 参考訳(メタデータ) (2020-09-30T10:13:18Z) - Understanding Compositional Structures in Art Historical Images using
Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。
本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。
本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文 参考訳(メタデータ) (2020-09-08T15:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。