論文の概要: Aesthetically Relevant Image Captioning
- arxiv url: http://arxiv.org/abs/2211.15378v1
- Date: Fri, 25 Nov 2022 14:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:10:54.418453
- Title: Aesthetically Relevant Image Captioning
- Title(参考訳): 審美的関連画像キャプション
- Authors: Zhipeng Zhong, Fei Zhou and Guoping Qiu
- Abstract要約: 我々は、画像AQAとIACを一緒に研究し、ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。
ARICには、ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)が含まれている。
ARS が高いテキストは審美的評価をより正確に予測でき、新しいARIC モデルはより正確で、美学的に関連性があり、より多様な画像キャプションを生成することができることを示す。
- 参考スコア(独自算出の注目度): 17.081262827258943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image aesthetic quality assessment (AQA) aims to assign numerical aesthetic
ratings to images whilst image aesthetic captioning (IAC) aims to generate
textual descriptions of the aesthetic aspects of images. In this paper, we
study image AQA and IAC together and present a new IAC method termed
Aesthetically Relevant Image Captioning (ARIC). Based on the observation that
most textual comments of an image are about objects and their interactions
rather than aspects of aesthetics, we first introduce the concept of Aesthetic
Relevance Score (ARS) of a sentence and have developed a model to automatically
label a sentence with its ARS. We then use the ARS to design the ARIC model
which includes an ARS weighted IAC loss function and an ARS based diverse
aesthetic caption selector (DACS). We present extensive experimental results to
show the soundness of the ARS concept and the effectiveness of the ARIC model
by demonstrating that texts with higher ARS's can predict the aesthetic ratings
more accurately and that the new ARIC model can generate more accurate,
aesthetically more relevant and more diverse image captions. Furthermore, a
large new research database containing 510K images with over 5 million comments
and 350K aesthetic scores, and code for implementing ARIC are available at
https://github.com/PengZai/ARIC.
- Abstract(参考訳): 画像美的品質評価(AQA)は画像に数値的な美的評価を割り当てることを目的としており、画像美的キャプション(IAC)は画像の美的側面のテキスト記述を作成することを目的としている。
本稿では,画像AQAとIACを併用し,ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。
画像のテキストによるコメントのほとんどは、美学的な側面ではなく、オブジェクトとその相互作用に関するものであるという観察に基づいて、まず、文章の美的関連スコア(ARS)の概念を導入し、文章をARSで自動的にラベル付けするモデルを開発した。
ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)を含むARICモデルの設計を行う。
ARSの概念の健全性やARICモデルの有効性を示すために,高次ARSのテキストが審美的評価をより正確に予測し,新たなARICモデルがより正確で,より関連性が高く,より多様な画像キャプションを生成できることを実証した。
さらに、500万以上のコメントと350万の美的スコアを持つ510万の画像とARICを実装するためのコードを含む大規模な研究データベースがhttps://github.com/PengZai/ARICで公開されている。
関連論文リスト
- Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Aesthetic Visual Question Answering of Photographs [15.83390933825182]
本稿では,画像の美的視覚的質問と回答(AVQA)という,美的言語評価の新しい課題を提案する。
目的QAペアは、提案した美的属性分析アルゴリズムによって生成される。
我々は,72,168の高品質画像と324,756対の審美的質問を含む,最初の審美的視覚的質問応答データセットであるAesVQAを構築した。
論文 参考訳(メタデータ) (2022-08-10T07:27:57Z) - Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 [65.5524793975387]
DPC-CaptionsV2という新しいデータセットを半自動で構築する。
DPC-CaptionsV2の画像には、合成、照明、色、主題の4つの美的属性を含む。
本手法は,従来のAMANモデルよりも美的トピックに近い4つの美的属性に対するコメントを予測できる。
論文 参考訳(メタデータ) (2022-08-09T03:20:59Z) - Distilling Knowledge from Object Classification to Aesthetics Assessment [68.317720070755]
画像美学アセスメント(IAA)の主なジレンマは、審美ラベルの抽象的な性質に由来する。
我々は,IAAモデルに対して,多様な画像内容のセマンティック・パターンに関する知識を抽出することを提案する。
蒸留知識を用いてエンド・ツー・エンドのシングルバックボーンIAAモデルを監督することにより、IAAモデルの性能が大幅に向上する。
論文 参考訳(メタデータ) (2022-06-02T00:39:01Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。