論文の概要: Multi-modal Learnable Queries for Image Aesthetics Assessment
- arxiv url: http://arxiv.org/abs/2405.01326v1
- Date: Thu, 2 May 2024 14:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:15:09.753061
- Title: Multi-modal Learnable Queries for Image Aesthetics Assessment
- Title(参考訳): 画像美学評価のためのマルチモーダル学習型クエリ
- Authors: Zhiwei Xiong, Yunfan Zhang, Zhiqi Shen, Peiran Ren, Han Yu,
- Abstract要約: 本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習機能から美学関連の特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAで新たな最先端性能を実現し、SRCCとPLCCでそれぞれ7.7%と8.3%を上回りました。
- 参考スコア(独自算出の注目度): 55.28571422062623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image aesthetics assessment (IAA) is attracting wide interest with the prevalence of social media. The problem is challenging due to its subjective and ambiguous nature. Instead of directly extracting aesthetic features solely from the image, user comments associated with an image could potentially provide complementary knowledge that is useful for IAA. With existing large-scale pre-trained models demonstrating strong capabilities in extracting high-quality transferable visual and textual features, learnable queries are shown to be effective in extracting useful features from the pre-trained visual features. Therefore, in this paper, we propose MMLQ, which utilizes multi-modal learnable queries to extract aesthetics-related features from multi-modal pre-trained features. Extensive experimental results demonstrate that MMLQ achieves new state-of-the-art performance on multi-modal IAA, beating previous methods by 7.7% and 8.3% in terms of SRCC and PLCC, respectively.
- Abstract(参考訳): 画像美学評価(IAA)はソーシャルメディアの普及に広く関心を集めている。
その問題は主観的で曖昧な性質のため難しい。
画像からのみ美的特徴を直接抽出するのではなく、画像に関連するユーザコメントは、IAAに有用な補完的な知識を提供する可能性がある。
既存の大規模事前学習モデルでは、高品質な伝達可能な視覚的特徴とテキスト的特徴を抽出する強力な能力を示すため、学習可能なクエリは、事前学習された視覚的特徴から有用な特徴を抽出するのに有効であることが示されている。
そこで本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習特徴から美学関連特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAにおいて新しい最先端性能を達成し,SRCCとPLCCでそれぞれ7.7%,8.3%を達成した。
関連論文リスト
- UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Unveiling The Factors of Aesthetic Preferences with Explainable AI [0.0]
本研究では,機械学習(ML)モデルを用いて,新しい視点を開拓する。
我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。
本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性をより深く理解することである。
論文 参考訳(メタデータ) (2023-11-24T11:06:22Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Distilling Knowledge from Object Classification to Aesthetics Assessment [68.317720070755]
画像美学アセスメント(IAA)の主なジレンマは、審美ラベルの抽象的な性質に由来する。
我々は,IAAモデルに対して,多様な画像内容のセマンティック・パターンに関する知識を抽出することを提案する。
蒸留知識を用いてエンド・ツー・エンドのシングルバックボーンIAAモデルを監督することにより、IAAモデルの性能が大幅に向上する。
論文 参考訳(メタデータ) (2022-06-02T00:39:01Z) - Training and challenging models for text-guided fashion image retrieval [1.4266272677701561]
新たな評価データセットであるChallenging Fashion Queries (CFQ)を導入する。
CFQは、キャプション精度と条件付き画像の類似性の正と負のラベルを持つ相対的なキャプションを含む既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
論文 参考訳(メタデータ) (2022-04-23T06:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。