論文の概要: Aesthetically Relevant Image Captioning
- arxiv url: http://arxiv.org/abs/2211.15378v1
- Date: Fri, 25 Nov 2022 14:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:10:54.418453
- Title: Aesthetically Relevant Image Captioning
- Title(参考訳): 審美的関連画像キャプション
- Authors: Zhipeng Zhong, Fei Zhou and Guoping Qiu
- Abstract要約: 我々は、画像AQAとIACを一緒に研究し、ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。
ARICには、ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)が含まれている。
ARS が高いテキストは審美的評価をより正確に予測でき、新しいARIC モデルはより正確で、美学的に関連性があり、より多様な画像キャプションを生成することができることを示す。
- 参考スコア(独自算出の注目度): 17.081262827258943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image aesthetic quality assessment (AQA) aims to assign numerical aesthetic
ratings to images whilst image aesthetic captioning (IAC) aims to generate
textual descriptions of the aesthetic aspects of images. In this paper, we
study image AQA and IAC together and present a new IAC method termed
Aesthetically Relevant Image Captioning (ARIC). Based on the observation that
most textual comments of an image are about objects and their interactions
rather than aspects of aesthetics, we first introduce the concept of Aesthetic
Relevance Score (ARS) of a sentence and have developed a model to automatically
label a sentence with its ARS. We then use the ARS to design the ARIC model
which includes an ARS weighted IAC loss function and an ARS based diverse
aesthetic caption selector (DACS). We present extensive experimental results to
show the soundness of the ARS concept and the effectiveness of the ARIC model
by demonstrating that texts with higher ARS's can predict the aesthetic ratings
more accurately and that the new ARIC model can generate more accurate,
aesthetically more relevant and more diverse image captions. Furthermore, a
large new research database containing 510K images with over 5 million comments
and 350K aesthetic scores, and code for implementing ARIC are available at
https://github.com/PengZai/ARIC.
- Abstract(参考訳): 画像美的品質評価(AQA)は画像に数値的な美的評価を割り当てることを目的としており、画像美的キャプション(IAC)は画像の美的側面のテキスト記述を作成することを目的としている。
本稿では,画像AQAとIACを併用し,ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。
画像のテキストによるコメントのほとんどは、美学的な側面ではなく、オブジェクトとその相互作用に関するものであるという観察に基づいて、まず、文章の美的関連スコア(ARS)の概念を導入し、文章をARSで自動的にラベル付けするモデルを開発した。
ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)を含むARICモデルの設計を行う。
ARSの概念の健全性やARICモデルの有効性を示すために,高次ARSのテキストが審美的評価をより正確に予測し,新たなARICモデルがより正確で,より関連性が高く,より多様な画像キャプションを生成できることを実証した。
さらに、500万以上のコメントと350万の美的スコアを持つ510万の画像とARICを実装するためのコードを含む大規模な研究データベースがhttps://github.com/PengZai/ARICで公開されている。
関連論文リスト
- AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling [11.996211235559866]
Image Content Appeal Assessment (ICAA) は、画像のコンテンツが視聴者に対して生成する肯定的な関心のレベルを定量化する新しいメトリクスである。
ICAAは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)とは異なる。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 [65.5524793975387]
DPC-CaptionsV2という新しいデータセットを半自動で構築する。
DPC-CaptionsV2の画像には、合成、照明、色、主題の4つの美的属性を含む。
本手法は,従来のAMANモデルよりも美的トピックに近い4つの美的属性に対するコメントを予測できる。
論文 参考訳(メタデータ) (2022-08-09T03:20:59Z) - Distilling Knowledge from Object Classification to Aesthetics Assessment [68.317720070755]
画像美学アセスメント(IAA)の主なジレンマは、審美ラベルの抽象的な性質に由来する。
我々は,IAAモデルに対して,多様な画像内容のセマンティック・パターンに関する知識を抽出することを提案する。
蒸留知識を用いてエンド・ツー・エンドのシングルバックボーンIAAモデルを監督することにより、IAAモデルの性能が大幅に向上する。
論文 参考訳(メタデータ) (2022-06-02T00:39:01Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。