論文の概要: Artwork Interpretation with Vision Language Models: A Case Study on Emotions and Emotion Symbols
- arxiv url: http://arxiv.org/abs/2511.22929v1
- Date: Fri, 28 Nov 2025 07:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.794664
- Title: Artwork Interpretation with Vision Language Models: A Case Study on Emotions and Emotion Symbols
- Title(参考訳): 視覚言語モデルを用いたアートワークの解釈:感情記号と感情記号のケーススタディ
- Authors: Sebastian Padó, Kerstin Thomas,
- Abstract要約: 現在の視覚言語モデル(VLM)により感情表現のどの側面が検出できるかを検討する。
VLMは、画像の内容が驚くほどよく認識され、また、どの感情が表現され、どのように表現されるかが分かる。
モデルは具体的な画像には最適だが、非常に抽象的、あるいは非常に象徴的な画像には失敗する。
- 参考スコア(独自算出の注目度): 6.1335559884409685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotions are a fundamental aspect of artistic expression. Due to their abstract nature, there is a broad spectrum of emotion realization in artworks. These are subject to historical change and their analysis requires expertise in art history. In this article, we investigate which aspects of emotional expression can be detected by current (2025) vision language models (VLMs). We present a case study of three VLMs (Llava-Llama and two Qwen models) in which we ask these models four sets of questions of increasing complexity about artworks (general content, emotional content, expression of emotions, and emotion symbols) and carry out a qualitative expert evaluation. We find that the VLMs recognize the content of the images surprisingly well and often also which emotions they depict and how they are expressed. The models perform best for concrete images but fail for highly abstract or highly symbolic images. Reliable recognition of symbols remains fundamentally difficult. Furthermore, the models continue to exhibit the well-known LLM weakness of providing inconsistent answers to related questions.
- Abstract(参考訳): 感情は芸術的表現の基本的な側面である。
抽象的な性質から、芸術作品には幅広い感情の実現がある。
これらは歴史的変化の対象であり、その分析には美術史の専門知識が必要である。
本稿では,現在(2025)視覚言語モデル(VLM)によって感情表現のどの側面が検出できるかを検討する。
本稿では,3つのVLM(Llava-Llama モデルと2つの Qwen モデル)をケーススタディとして,これらのモデルに対して,アート作品(一般内容,感情内容,感情表現,感情記号)の複雑さを増すための4つの質問セットを質問し,質的な専門家評価を行う。
VLMは、画像の内容が驚くほどよく認識され、また、どの感情が表現され、どのように表現されるかが分かる。
モデルは具体的な画像には最適だが、非常に抽象的、あるいは非常に象徴的な画像には失敗する。
シンボルの信頼性の認識は基本的に困難である。
さらに、これらのモデルは、関連する質問に対して一貫性のない回答を提供するという、よく知られたLCMの弱点を示し続けている。
関連論文リスト
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models [1.8349570933241344]
身体的LVLM感情ナラティブ(ELENA)を生成するための枠組みを提案する。
これらは、感情的な反応に関与する健康な身体の部分に焦点を当てた、明確に定義された多層テキスト出力である。
我々は,我々の採用したフレームワークが,顔に写った画像の感情を効果的に認識し,微調整をせずにベースラインを上回り得ることを観察した。
論文 参考訳(メタデータ) (2025-09-23T21:34:57Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
芸術的イメージが与えられたモデルでは、特定の人間の感情をトリガーするピクセル領域をピンポイントし、それに対する言語学的説明を生成する。
本稿では,感情理解能力を持つセグメンテーションフレームワークを実現するために,感情刺激・説明モデル(EmoSEM)モデルを提案する。
本手法は,低レベルの画素特徴から高レベルの感情解釈へのエンド・ツー・エンド・モデリングを実現し,視覚的感情分析のための第1の微粒化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。