論文の概要: Does CLIP perceive art the same way we do?
- arxiv url: http://arxiv.org/abs/2505.05229v1
- Date: Thu, 08 May 2025 13:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.896493
- Title: Does CLIP perceive art the same way we do?
- Title(参考訳): CLIPはアートを私たちのように認識していますか?
- Authors: Andrea Asperti, Leonardo Dessì, Maria Chiara Tonetti, Nico Wu,
- Abstract要約: 絵画から高レベルの意味情報や文体情報を抽出するCLIPの能力について検討する。
以上の結果から,CLIPの視覚的表現の長所と短所が明らかとなった。
我々の研究は、マルチモーダルシステムにおけるより深い解釈可能性の必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP has emerged as a powerful multimodal model capable of connecting images and text through joint embeddings, but to what extent does it "see" the same way humans do - especially when interpreting artworks? In this paper, we investigate CLIP's ability to extract high-level semantic and stylistic information from paintings, including both human-created and AI-generated imagery. We evaluate its perception across multiple dimensions: content, scene understanding, artistic style, historical period, and the presence of visual deformations or artifacts. By designing targeted probing tasks and comparing CLIP's responses to human annotations and expert benchmarks, we explore its alignment with human perceptual and contextual understanding. Our findings reveal both strengths and limitations in CLIP's visual representations, particularly in relation to aesthetic cues and artistic intent. We further discuss the implications of these insights for using CLIP as a guidance mechanism during generative processes, such as style transfer or prompt-based image synthesis. Our work highlights the need for deeper interpretability in multimodal systems, especially when applied to creative domains where nuance and subjectivity play a central role.
- Abstract(参考訳): CLIPは、画像とテキストをジョイント埋め込みで接続できる強力なマルチモーダルモデルとして登場した。
本稿では,人間生成画像とAI生成画像の両方を含む絵画から,高レベルな意味情報とスタイリスティックな情報を抽出するCLIPの能力について検討する。
我々は、その知覚を、内容、シーン理解、芸術的スタイル、歴史的期間、視覚的変形や人工物の存在など、多次元にわたって評価する。
対象の探索タスクを設計し、CLIPの応答を人間のアノテーションや専門家ベンチマークと比較することにより、人間の知覚的および文脈的理解との整合性を検討する。
以上の結果から,CLIPの視覚的表現の強さと限界,特に審美的手がかりと芸術的意図との関連が示唆された。
さらに,CLIPをスタイル伝達やプロンプトベース画像合成などの生成過程における誘導機構として利用する上でのこれらの知見の意義について考察する。
我々の研究は、特にニュアンスと主観性が中心的な役割を果たす創造的ドメインに適用する場合、マルチモーダルシステムにおける深い解釈可能性の必要性を強調します。
関連論文リスト
- Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。
大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文 参考訳(メタデータ) (2025-02-04T18:08:23Z) - Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP [0.0]
私たちは、視覚と言語処理の統合で有名なCLIP(CLIP)に焦点を当てています。
私たちの目的は、CLIPの画像理解における繰り返し発生する問題と盲点を明らかにすることである。
画像に対するCLIPの解釈と人間の知覚との相違について明らかにした。
論文 参考訳(メタデータ) (2024-06-30T05:23:11Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。