論文の概要: Distilling Knowledge from Object Classification to Aesthetics Assessment
- arxiv url: http://arxiv.org/abs/2206.00809v1
- Date: Thu, 2 Jun 2022 00:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 01:59:24.248970
- Title: Distilling Knowledge from Object Classification to Aesthetics Assessment
- Title(参考訳): オブジェクト分類から美学評価への蒸留知識
- Authors: Jingwen Hou, Henghui Ding, Weisi Lin, Weide Liu, Yuming Fang
- Abstract要約: 画像美学アセスメント(IAA)の主なジレンマは、審美ラベルの抽象的な性質に由来する。
我々は,IAAモデルに対して,多様な画像内容のセマンティック・パターンに関する知識を抽出することを提案する。
蒸留知識を用いてエンド・ツー・エンドのシングルバックボーンIAAモデルを監督することにより、IAAモデルの性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 68.317720070755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we point out that the major dilemma of image aesthetics
assessment (IAA) comes from the abstract nature of aesthetic labels. That is, a
vast variety of distinct contents can correspond to the same aesthetic label.
On the one hand, during inference, the IAA model is required to relate various
distinct contents to the same aesthetic label. On the other hand, when
training, it would be hard for the IAA model to learn to distinguish different
contents merely with the supervision from aesthetic labels, since aesthetic
labels are not directly related to any specific content. To deal with this
dilemma, we propose to distill knowledge on semantic patterns for a vast
variety of image contents from multiple pre-trained object classification (POC)
models to an IAA model. Expecting the combination of multiple POC models can
provide sufficient knowledge on various image contents, the IAA model can
easier learn to relate various distinct contents to a limited number of
aesthetic labels. By supervising an end-to-end single-backbone IAA model with
the distilled knowledge, the performance of the IAA model is significantly
improved by 4.8% in SRCC compared to the version trained only with ground-truth
aesthetic labels. On specific categories of images, the SRCC improvement
brought by the proposed method can achieve up to 7.2%. Peer comparison also
shows that our method outperforms 10 previous IAA methods.
- Abstract(参考訳): 本研究は,画像美学評価(IAA)の主要なジレンマが,審美ラベルの抽象的性質に由来することを指摘する。
すなわち、様々な異なる内容が同一の美的ラベルに対応することができる。
一方,推測中,IAAモデルでは,異なる内容と同一の審美ラベルを関連付ける必要がある。
一方,iaaモデルでは,審美ラベルは特定の内容に直接関連しないため,審美ラベルの監督だけで異なる内容を識別することは困難である。
このジレンマに対処するために,複数の事前学習対象分類(POC)モデルから多様な画像内容のセマンティック・パターンの知識をIAAモデルに抽出することを提案する。
複数のpocモデルの組み合わせによって、様々な画像内容に関する十分な知識が得られれば、iaaモデルは、さまざまな異なるコンテンツと限られた数の美的ラベルを関連付ける学習が容易になる。
蒸留知識でエンドツーエンドのシングルバックボーンIAAモデルを監督することにより、ISAモデルの性能はSRCCで4.8%向上した。
画像の特定カテゴリにおいて,提案手法によるsrccの改善は最大7.2%まで達成できる。
また,本手法は従来のIAA法よりも優れていた。
関連論文リスト
- AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling [11.996211235559866]
Image Content Appeal Assessment (ICAA) は、画像のコンテンツが視聴者に対して生成する肯定的な関心のレベルを定量化する新しいメトリクスである。
ICAAは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)とは異なる。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Multi-modal Learnable Queries for Image Aesthetics Assessment [55.28571422062623]
本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習機能から美学関連の特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAで新たな最先端性能を実現し、SRCCとPLCCでそれぞれ7.7%と8.3%を上回りました。
論文 参考訳(メタデータ) (2024-05-02T14:31:47Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Aesthetically Relevant Image Captioning [17.081262827258943]
我々は、画像AQAとIACを一緒に研究し、ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。
ARICには、ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)が含まれている。
ARS が高いテキストは審美的評価をより正確に予測でき、新しいARIC モデルはより正確で、美学的に関連性があり、より多様な画像キャプションを生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-25T14:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。