論文の概要: UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
- arxiv url: http://arxiv.org/abs/2404.09619v1
- Date: Mon, 15 Apr 2024 09:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:50:12.950978
- Title: UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
- Title(参考訳): UNIAA: 統一されたマルチモーダル画像美容評価ベースラインとベンチマーク
- Authors: Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang,
- Abstract要約: 本論文では,Unified Multi-modal Image Aesthetic Assessment (UNIAA) フレームワークを提案する。
IAAの視覚的知覚と言語能力の両面でMLLMを選択し、既存のデータセットを統一的で高品質なビジュアル命令チューニングデータに変換するための低コストなパラダイムを確立する。
我々のモデルは審美的知覚においてGPT-4Vよりも優れており、中等階級の人間に近づきさえする。
- 参考スコア(独自算出の注目度): 22.487379136024018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an alternative to expensive expert evaluation, Image Aesthetic Assessment (IAA) stands out as a crucial task in computer vision. However, traditional IAA methods are typically constrained to a single data source or task, restricting the universality and broader application. In this work, to better align with human aesthetics, we propose a Unified Multi-modal Image Aesthetic Assessment (UNIAA) framework, including a Multi-modal Large Language Model (MLLM) named UNIAA-LLaVA and a comprehensive benchmark named UNIAA-Bench. We choose MLLMs with both visual perception and language ability for IAA and establish a low-cost paradigm for transforming the existing datasets into unified and high-quality visual instruction tuning data, from which the UNIAA-LLaVA is trained. To further evaluate the IAA capability of MLLMs, we construct the UNIAA-Bench, which consists of three aesthetic levels: Perception, Description, and Assessment. Extensive experiments validate the effectiveness and rationality of UNIAA. UNIAA-LLaVA achieves competitive performance on all levels of UNIAA-Bench, compared with existing MLLMs. Specifically, our model performs better than GPT-4V in aesthetic perception and even approaches the junior-level human. We find MLLMs have great potential in IAA, yet there remains plenty of room for further improvement. The UNIAA-LLaVA and UNIAA-Bench will be released.
- Abstract(参考訳): 高価な専門家評価の代替として、画像美的評価(IAA)はコンピュータビジョンにおいて重要な課題である。
しかし、従来のIAAメソッドは一般的に単一のデータソースやタスクに制約され、普遍性と幅広いアプリケーションを制限する。
本研究では,UNIAA-LLaVAというマルチモーダル大言語モデル(MLLM)とUNIAA-Benchという総合ベンチマークを含む,統一マルチモーダル画像審美評価(UNIAA)フレームワークを提案する。
IAAの視覚的知覚と言語能力の両面でMLLMを選択し、既存のデータセットを統一的で高品質なビジュアル命令チューニングデータに変換するための低コストなパラダイムを確立し、UNIAA-LLaVAを訓練する。
MLLMのIAA能力をさらに評価するために,認識,説明,評価の3つの審美レベルからなるUNIAA-Benchを構築した。
大規模な実験は、UNIAAの有効性と合理性を検証する。
UNIAA-LLaVAは、既存のMLLMと比較して、UNIAA-Benchのあらゆるレベルにおける競争性能を達成している。
特に,本モデルは審美的知覚においてGPT-4Vよりも優れており,中等レベルの人間にも接近する。
MLLMはIAAに大きな可能性を秘めていますが、さらなる改善の余地はたくさんあります。
UNIAA-LLaVAとUNIAA-Benchが発売される。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Towards Unified Facial Action Unit Recognition Framework by Large Language Models [10.752099675130276]
我々は,Large Language Model (LLM)に基づく最初の統一AU認識フレームワークであるAU-LLaVAを提案する。
AU-LLaVAは、ビジュアルエンコーダ、線形プロジェクタ層、および事前訓練されたLCMから構成される。
BP4DとDisFAデータセットでは、AU-LLaVAがAUのほぼ半分に対して最も正確な認識結果を提供する。
論文 参考訳(メタデータ) (2024-09-13T00:26:09Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Multi-modal Learnable Queries for Image Aesthetics Assessment [55.28571422062623]
本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習機能から美学関連の特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAで新たな最先端性能を実現し、SRCCとPLCCでそれぞれ7.7%と8.3%を上回りました。
論文 参考訳(メタデータ) (2024-05-02T14:31:47Z) - AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception [74.11069437400398]
我々は,21,904の多様なソースイメージと88Kの人間の自然言語フィードバックを備えたコーパスリッチな審美的批評データベースを開発した。
AesExpertと呼ばれる、マルチモダリティのAesthetic Expertモデルを実現するために、オープンソースの一般基盤モデルを微調整します。
実験により、提案したAesExpertモデルは、最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。
論文 参考訳(メタデータ) (2024-04-15T09:56:20Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - Siamese Object Tracking for Vision-Based UAM Approaching with Pairwise
Scale-Channel Attention [27.114231832842034]
本研究は、視覚に基づくUAMアプローチのためのペアワイズスケールチャネルアテンション(SiamSA)を備えた新しいSiameseネットワークを提案する。
SiamSAは、ペアワイズスケールチャネルアテンションネットワーク(PSAN)とスケールアウェアアンカー提案ネットワーク(SA-APN)で構成されている。
論文 参考訳(メタデータ) (2022-11-26T13:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。