論文の概要: Impressions: Understanding Visual Semiotics and Aesthetic Impact
- arxiv url: http://arxiv.org/abs/2310.17887v1
- Date: Fri, 27 Oct 2023 04:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:00:44.012191
- Title: Impressions: Understanding Visual Semiotics and Aesthetic Impact
- Title(参考訳): 印象:視覚セミオティックスと美的影響を理解する
- Authors: Julia Kruk, Caleb Ziems, Diyi Yang
- Abstract要約: 画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 66.40617566253404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Is aesthetic impact different from beauty? Is visual salience a reflection of
its capacity for effective communication? We present Impressions, a novel
dataset through which to investigate the semiotics of images, and how specific
visual features and design choices can elicit specific emotions, thoughts and
beliefs. We posit that the impactfulness of an image extends beyond formal
definitions of aesthetics, to its success as a communicative act, where style
contributes as much to meaning formation as the subject matter. However, prior
image captioning datasets are not designed to empower state-of-the-art
architectures to model potential human impressions or interpretations of
images. To fill this gap, we design an annotation task heavily inspired by
image analysis techniques in the Visual Arts to collect 1,440 image-caption
pairs and 4,320 unique annotations exploring impact, pragmatic image
description, impressions, and aesthetic design choices. We show that existing
multimodal image captioning and conditional generation models struggle to
simulate plausible human responses to images. However, this dataset
significantly improves their ability to model impressions and aesthetic
evaluations of images through fine-tuning and few-shot adaptation.
- Abstract(参考訳): 美的影響は美と異なるか?
視覚的サリエンスはその効果的なコミュニケーション能力の反映か?
イメージのセロティクスや、視覚的特徴やデザインの選択が特定の感情や思考、信念をいかに引き起こすかを調べるための、新しいデータセットであるインプレッションを提示した。
我々は、イメージのインパクトフルネスが、美学の形式的定義を超えて、その成功がコミュニケーション行為として成功し、そのスタイルは主題と同様に形成を意味するものであると仮定する。
しかし、以前の画像キャプションデータセットは、人間の印象や画像の解釈をモデル化する最先端のアーキテクチャーを強化するために設計されていない。
このギャップを埋めるために,視覚芸術における画像解析技術に着想を得たアノテーションタスクをデザインし,1,440のイメージキャプチャペアと4,320のユニークなアノテーションを収集し,影響,実用的イメージ記述,印象,美的デザインの選択を探索する。
既存のマルチモーダル画像キャプションと条件生成モデルでは,画像に対する人間の反応をシミュレートするのに苦労している。
しかし、このデータセットは、微調整と少数ショット適応によって画像の印象や美的評価をモデル化する能力を大幅に改善する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Make Me Happier: Evoking Emotions Through Image Diffusion Models [36.40067582639123]
そこで本研究では,感情を刺激するイメージを合成し,本来のシーンのセマンティクスと構造を保ちながら,感情を刺激するイメージを合成することを目的とした,感情誘発画像生成の新たな課題を提案する。
感情編集データセットが不足しているため、34万対の画像とその感情アノテーションからなるユニークなデータセットを提供する。
論文 参考訳(メタデータ) (2024-03-13T05:13:17Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - AffectGAN: Affect-Based Generative Art Driven by Semantics [2.323282558557423]
本稿では,特定の感情状態を表す芸術的画像を生成する新しい手法を提案する。
我々のAffectGANモデルは、特定の意味的プロンプトや意図された感情的結果に基づいて画像を生成することができる。
AffectGANによって生成された32の画像の小さなデータセットは、50人の参加者によって、彼らが引き起こす特定の感情と、その品質と新規性の観点から注釈付けされている。
論文 参考訳(メタデータ) (2021-09-30T04:53:25Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。