論文の概要: VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining
- arxiv url: http://arxiv.org/abs/2303.14302v2
- Date: Fri, 2 Jun 2023 18:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 02:18:54.640458
- Title: VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining
- Title(参考訳): VILA:Vision-Language Pretrainingによるユーザコメントからイメージ美学を学ぶ
- Authors: Junjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, Feng Yang
- Abstract要約: ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 53.470662123170555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the aesthetics of an image is challenging, as it is influenced by
multiple factors including composition, color, style, and high-level semantics.
Existing image aesthetic assessment (IAA) methods primarily rely on
human-labeled rating scores, which oversimplify the visual aesthetic
information that humans perceive. Conversely, user comments offer more
comprehensive information and are a more natural way to express human opinions
and preferences regarding image aesthetics. In light of this, we propose
learning image aesthetics from user comments, and exploring vision-language
pretraining methods to learn multimodal aesthetic representations.
Specifically, we pretrain an image-text encoder-decoder model with
image-comment pairs, using contrastive and generative objectives to learn rich
and generic aesthetic semantics without human labels. To efficiently adapt the
pretrained model for downstream IAA tasks, we further propose a lightweight
rank-based adapter that employs text as an anchor to learn the aesthetic
ranking concept. Our results show that our pretrained aesthetic vision-language
model outperforms prior works on image aesthetic captioning over the
AVA-Captions dataset, and it has powerful zero-shot capability for aesthetic
tasks such as zero-shot style classification and zero-shot IAA, surpassing many
supervised baselines. With only minimal finetuning parameters using the
proposed adapter module, our model achieves state-of-the-art IAA performance
over the AVA dataset.
- Abstract(参考訳): 画像の審美性を評価することは、構成、色、スタイル、高レベルの意味論など、複数の要因に影響されるため、難しい。
既存の画像美的評価法(IAA)は、人間が知覚する視覚的美的情報を過度に単純化する人間のラベル付き評価スコアに依存している。
逆に、ユーザーコメントはより包括的な情報を提供し、画像美学に関する人間の意見や好みを表現する自然な方法である。
そこで本研究では,ユーザのコメントからイメージ美学を学ぶこと,マルチモーダル美学表現を学習するための視覚言語事前学習法を提案する。
具体的には、コントラスト的および生成的目的を用いて画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
下流のiaaタスクに事前学習したモデルを効率的に適応させるために,テキストをアンカーとして使用する軽量なランクベースアダプタを提案する。
以上の結果から,AVA-Captionsデータセットによる画像の美的字幕化は従来よりも優れており,ゼロショットスタイル分類やゼロショットIAAなどの美的タスクには強力なゼロショット機能を備えており,多くの教師付きベースラインを超えていることがわかった。
提案するアダプタモジュールを用いた最小限の微調整パラメータのみを用いて,AVAデータセット上での最先端IAA性能を実現する。
関連論文リスト
- Unveiling The Factors of Aesthetic Preferences with Explainable AI [0.0]
本研究では,機械学習(ML)モデルを用いて,新しい視点を開拓する。
我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。
本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性をより深く理解することである。
論文 参考訳(メタデータ) (2023-11-24T11:06:22Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 [65.5524793975387]
DPC-CaptionsV2という新しいデータセットを半自動で構築する。
DPC-CaptionsV2の画像には、合成、照明、色、主題の4つの美的属性を含む。
本手法は,従来のAMANモデルよりも美的トピックに近い4つの美的属性に対するコメントを予測できる。
論文 参考訳(メタデータ) (2022-08-09T03:20:59Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Personalized Image Aesthetics Assessment with Rich Attributes [35.61053167813472]
我々は、パーソナライズされた画像美学の最も包括的な主観的研究を行い、Rich Attributes (PARA) を用いたパーソナライズされた画像美学データベースを導入する。
PARAは、9つの画像指向の目的属性と4つの人間指向の主観的属性を含む、リッチなアノテーションを備えている。
また,条件付きPIAAモデルも提案する。
論文 参考訳(メタデータ) (2022-03-31T02:23:46Z) - User-Guided Personalized Image Aesthetic Assessment based on Deep
Reinforcement Learning [64.07820203919283]
本稿では,新しいユーザガイド型画像美観評価フレームワークを提案する。
深部強化学習(DRL)に基づく審美評価のためのユーザインタラクションを活用して画像のリタッチとランク付けを行う
パーソナライズされた審美分布は、異なるユーザの審美的嗜好とより一致している。
論文 参考訳(メタデータ) (2021-06-14T15:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。