論文の概要: Aesthetic Visual Question Answering of Photographs
- arxiv url: http://arxiv.org/abs/2208.05798v1
- Date: Wed, 10 Aug 2022 07:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:26:01.824412
- Title: Aesthetic Visual Question Answering of Photographs
- Title(参考訳): 写真の美的視覚的質問応答
- Authors: Xin Jin, Wu Zhou, Xinghui Zhou, Shuai Cui, Le Zhang, Jianwen Lv, Shu
Zhao
- Abstract要約: 本稿では,画像の美的視覚的質問と回答(AVQA)という,美的言語評価の新しい課題を提案する。
目的QAペアは、提案した美的属性分析アルゴリズムによって生成される。
我々は,72,168の高品質画像と324,756対の審美的質問を含む,最初の審美的視覚的質問応答データセットであるAesVQAを構築した。
- 参考スコア(独自算出の注目度): 15.83390933825182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aesthetic assessment of images can be categorized into two main forms:
numerical assessment and language assessment. Aesthetics caption of photographs
is the only task of aesthetic language assessment that has been addressed. In
this paper, we propose a new task of aesthetic language assessment: aesthetic
visual question and answering (AVQA) of images. If we give a question of images
aesthetics, model can predict the answer. We use images from
\textit{www.flickr.com}. The objective QA pairs are generated by the proposed
aesthetic attributes analysis algorithms. Moreover, we introduce subjective QA
pairs that are converted from aesthetic numerical labels and sentiment analysis
from large-scale pre-train models. We build the first aesthetic visual question
answering dataset, AesVQA, that contains 72,168 high-quality images and 324,756
pairs of aesthetic questions. Two methods for adjusting the data distribution
have been proposed and proved to improve the accuracy of existing models. This
is the first work that both addresses the task of aesthetic VQA and introduces
subjectiveness into VQA tasks. The experimental results reveal that our methods
outperform other VQA models on this new task.
- Abstract(参考訳): 画像の美的評価は、数値評価と言語評価の2つの主な形態に分類できる。
写真の美的キャプションは、対処された美的言語アセスメントの唯一のタスクである。
本稿では,画像の審美的視覚的質問と回答(avqa)という,審美的言語評価の新しいタスクを提案する。
画像美学の質問をすれば、モデルは答えを予測することができる。
画像は \textit{www.flickr.com} から。
目的QAペアは、提案した美的属性分析アルゴリズムによって生成される。
さらに,審美的数値ラベルから変換された主観的qaペアと,大規模事前学習モデルからの感情分析を紹介する。
72,168の高品質画像と324,756対の審美的質問を含む,最初の美的視覚的質問応答データセットであるAesVQAを構築した。
データ分布を調整する2つの方法が提案され、既存のモデルの精度が向上することが証明された。
これはどちらも美的VQAの課題に対処し、VQAタスクに主観性を導入する最初の作品である。
実験の結果,本手法は他のVQAモデルよりも優れていることがわかった。
関連論文リスト
- AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling [11.996211235559866]
Image Content Appeal Assessment (ICAA) は、画像のコンテンツが視聴者に対して生成する肯定的な関心のレベルを定量化する新しいメトリクスである。
ICAAは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)とは異なる。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Understanding Aesthetics with Language: A Photo Critique Dataset for
Aesthetic Assessment [6.201485014848172]
74K画像と220Kコメントを含むCritique Photo Redditデータセット(RPCD)を提案する。
我々は、美的判断の指標として批判の感情の極性を利用する。
論文 参考訳(メタデータ) (2022-06-17T08:16:20Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - User-Guided Personalized Image Aesthetic Assessment based on Deep
Reinforcement Learning [64.07820203919283]
本稿では,新しいユーザガイド型画像美観評価フレームワークを提案する。
深部強化学習(DRL)に基づく審美評価のためのユーザインタラクションを活用して画像のリタッチとランク付けを行う
パーソナライズされた審美分布は、異なるユーザの審美的嗜好とより一致している。
論文 参考訳(メタデータ) (2021-06-14T15:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。