Fugu-MT 論文翻訳(概要): Have Large Vision-Language Models Mastered Art History?

論文の概要: Have Large Vision-Language Models Mastered Art History?

arxiv url: http://arxiv.org/abs/2409.03521v1
Date: Thu, 5 Sep 2024 13:33:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 20:28:22.300745
Title: Have Large Vision-Language Models Mastered Art History?
Title（参考訳）: 美術史をマスターする大規模視覚言語モデルはあるか?
Authors: Ombretta Strafforello, Derya Soydaner, Michiel Willems, Anne-Sofie Maerten, Stefanie De Winter,
Abstract要約: 美術史家たちは長い間、芸術のユニークな側面を研究しており、スタイル予測はその分野の重要な要素である。本稿では,視覚的およびテキスト的データを統合した大規模視覚言語モデルを用いて,絵画の美術的歴史的特性を効果的に予測できるかどうかを考察する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.
Abstract（参考訳）: VLM(Big Vision-Language Models)の出現は、最近、複数の領域にまたがる画像分類において、新たなベースラインを確立した。しかし、美術史家によって伝統的に習得された領域である絵画の美術様式分類(特に美術様式分類)の特定の作業におけるVLMのパフォーマンスはまだ調査されていない。アートワークは、自然のイメージと比較して、その本質的に複雑で多様な構造を特徴とし、様々な構成やスタイルが特徴である。美術史家たちは長い間、芸術のユニークな側面を研究してきたが、スタイル予測はその分野の重要な要素であった。本稿では,視覚的およびテキスト的データを統合した大規模なVLMが,絵画の美術的歴史的特性を効果的に予測できるかどうかを考察する。 CLIP, LLaVA, OpenFlamingo, GPT-4oの4つのVLMの詳細な分析を行い, アートスタイル, 著者, タイムのゼロショット分類に焦点をあてた。さらに,美術史家らによって研究された中心的な絵画を含む,精巧な試作品群であるArTestについて紹介する。

関連論文リスト

The persistence of painting styles [0.0]
トポロジカルデータ解析の手法である持続的ホモロジー(PH)が,芸術的スタイルに対する客観的かつ解釈可能な洞察をいかに提供するかを示す。統計的確証を持って、PHがアーティストと異なる芸術的流路と同一の流路を区別できることを示し、アーティストのイメージとアーティストのスタイルのAI生成画像とを区別する。
論文参考訳（メタデータ） (2025-11-17T13:25:04Z)
The Photographer Eye: Teaching Multimodal Large Language Models to Understand Image Aesthetics like Photographers [82.99499130882576]
写真家でキュレーターのSzarkowskiは、一般的な視覚的理解と美的理解との間にある顕著なギャップの1つを洞察的に明らかにした。プロの写真家と愛好家の間で広範囲にわたる議論から得られた新しいデータセットPhotoCritiqueを提示する。また,複数の視点から画像美学を理解するために,言語誘導型多視点視覚融合機構を備えた新しいモデルPhotoEyeを提案する。
論文参考訳（メタデータ） (2025-09-23T02:59:41Z)
ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding [16.9945713458689]
ArtRAGは、構造化知識と検索強化世代(RAG)を組み合わせた新しいフレームワークである。推測時には、構造化された検索者が意味的およびトポロジカルなサブグラフを選択して生成をガイドする。 SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
論文参考訳（メタデータ） (2025-05-09T13:08:27Z)
ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models [61.55816738318699]
本稿では,テキスト・画像生成モデルにおける新しいデータ利用監査手法を提案する。 ArtistAuditorは、多彩なスタイルの表現を得るためにスタイル抽出器を使用し、アートワークをアーティストのスタイルのサンプリングとして扱う。 6つのモデルとデータセットの組み合わせによる実験結果は、ArtistAuditorが高いAUC値を達成可能であることを示している。
論文参考訳（メタデータ） (2025-04-17T16:15:38Z)
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge [50.60063523054282]
美術関連コンテンツへのアクセスなしに訓練されたテキスト・画像生成モデルを提案する。そこで我々は,選択した芸術スタイルのごく一部の例を用いて,シンプルな,かつ効果的なアートアダプタの学習方法を提案する。
論文参考訳（メタデータ） (2024-11-29T18:59:01Z)
APDDv2: Aesthetics of Paintings and Drawings Dataset with Artist Labeled Scores and Comments [45.57709215036539]
Aesthetics Paintings and Drawings dataset (APDD)は,24の異なる芸術カテゴリーと10の美的属性を含む最初の総合的な絵画コレクションである。 APDDv2は画像コーパスを拡張し、アノテーションの品質を改善し、詳細な言語コメントを特徴としている。本稿では,ArtCLIP(Art Assessment Network for Specific Painting Styles)の改訂版について紹介する。
論文参考訳（メタデータ） (2024-11-13T11:46:42Z)
GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。 LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文参考訳（メタデータ） (2024-08-01T11:52:56Z)
Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models [47.19481598385283]
ArtSavantは、ウィキアートの作品の参照データセットと比較することで、アーティストのユニークなスタイルを決定するツールである。そこで我々は,3つの人気テキスト・画像生成モデルにまたがる芸術的スタイルの複製の頻度を定量的に把握するために,大規模な実証的研究を行った。
論文参考訳（メタデータ） (2024-04-11T17:59:43Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文参考訳（メタデータ） (2023-05-08T17:58:27Z)
Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-03-27T12:59:15Z)
Towards mapping the contemporary art world with ArtLM: an art-specific NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文参考訳（メタデータ） (2022-12-14T09:26:07Z)
Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文参考訳（メタデータ） (2022-11-23T18:44:25Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Docent: A content-based recommendation system to discover contemporary art [0.8782885374383763]
本稿では,アート作品の画像とアーティストのコンテキストメタデータに依存する,現代美術のコンテントベースレコメンデーションシステムを提案する。私たちは、高度な、そしてアート特有の情報を収集し、注釈付けしたアートワークを収集し、モデルをトレーニングするために使用したユニークなデータベースを作成しました。アートスペシャリストのチームによる評価の結果、意味のあるアート作品の75%の平均的な最終評価が得られました。
論文参考訳（メタデータ） (2022-07-12T16:26:27Z)
Learning Portrait Style Representations [34.59633886057044]
高レベル特性を取り入れたニューラルネットワークアーキテクチャによって学習されたスタイル表現について検討する。美術史家によって注釈付けされた三重奏曲をスタイル類似性の監督として取り入れることで,学習スタイルの特徴の変化を見いだす。また,計算解析用に用意された肖像画の大規模データセットを初めて提示する。
論文参考訳（メタデータ） (2020-12-08T01:36:45Z)
Demographic Influences on Contemporary Art with Unsupervised Style Embeddings [25.107166631583212]
contempArtは絵画と図面のコレクションであり、Instagram上のソーシャル接続と追加の社会デマグラフィー情報に基づく詳細なグラフネットワークである。画像の教師なしスタイルの埋め込みを生成するのに適した3つの手法を評価し,残りのデータと相関する。
論文参考訳（メタデータ） (2020-09-30T10:13:18Z)
Understanding Compositional Structures in Art Historical Images using Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文参考訳（メタデータ） (2020-09-08T15:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。