論文の概要: HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment
- arxiv url: http://arxiv.org/abs/2503.23907v1
- Date: Mon, 31 Mar 2025 09:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:23.187737
- Title: HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment
- Title(参考訳): HumanAesExpert: 画像美的評価のための多モード基礎モデルの改善
- Authors: Zhichao Liao, Xiaokun Liu, Wenyu Qin, Qingyu Li, Qiulin Wang, Pengfei Wan, Di Zhang, Long Zeng, Pingfa Feng,
- Abstract要約: HumanBeautyはHuman Image Aesthetic Assessment (HIAA)のために構築された最初のデータセット
我々は人間の画像の美的評価のための強力な視覚言語モデルであるHumanAesExpertを提案する。
我々のモデルはHIAAにおいて、他の最先端モデルよりもはるかに優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 11.253286640424811
- License:
- Abstract: Image Aesthetic Assessment (IAA) is a long-standing and challenging research task. However, its subset, Human Image Aesthetic Assessment (HIAA), has been scarcely explored, even though HIAA is widely used in social media, AI workflows, and related domains. To bridge this research gap, our work pioneers a holistic implementation framework tailored for HIAA. Specifically, we introduce HumanBeauty, the first dataset purpose-built for HIAA, which comprises 108k high-quality human images with manual annotations. To achieve comprehensive and fine-grained HIAA, 50K human images are manually collected through a rigorous curation process and annotated leveraging our trailblazing 12-dimensional aesthetic standard, while the remaining 58K with overall aesthetic labels are systematically filtered from public datasets. Based on the HumanBeauty database, we propose HumanAesExpert, a powerful Vision Language Model for aesthetic evaluation of human images. We innovatively design an Expert head to incorporate human knowledge of aesthetic sub-dimensions while jointly utilizing the Language Modeling (LM) and Regression head. This approach empowers our model to achieve superior proficiency in both overall and fine-grained HIAA. Furthermore, we introduce a MetaVoter, which aggregates scores from all three heads, to effectively balance the capabilities of each head, thereby realizing improved assessment precision. Extensive experiments demonstrate that our HumanAesExpert models deliver significantly better performance in HIAA than other state-of-the-art models. Our datasets, models, and codes are publicly released to advance the HIAA community. Project webpage: https://humanaesexpert.github.io/HumanAesExpert/
- Abstract(参考訳): Image Aesthetic Assessment (IAA) は長年にわたる研究課題である。
しかし、そのサブセットであるHuman Image Aesthetic Assessment (HIAA)は、ソーシャルメディアやAIワークフロー、関連するドメインで広く使用されているにもかかわらず、ほとんど調査されていない。
この研究ギャップを埋めるために、HIAAに適した包括的な実装フレームワークを開発しました。
具体的には、HIAAのために構築された最初のデータセットであるHumanBeautyを紹介します。
包括的かつきめ細かなHIAAを実現するために、厳密なキュレーションプロセスを通じて50Kのヒト画像が手作業で収集され、私たちの後発の12次元審美基準を活用できるように注釈付けされ、残りの58Kの全体審美ラベルは、パブリックデータセットから体系的にフィルタリングされる。
HumanBeautyデータベースをベースとして,人間の画像の美的評価のための強力なビジョン言語モデルであるHumanAesExpertを提案する。
我々は、言語モデリング(LM)と回帰ヘッドを併用しながら、美的サブ次元の人間の知識を取り入れたエキスパートヘッドを革新的に設計する。
このアプローチにより,本モデルでは,総合的および微粒なHIAAにおいて,優れた習熟性を実現することができる。
さらに,3つの頭部からスコアを集約し,各頭部の能力のバランスをとるメタボッターを導入し,評価精度の向上を実現した。
大規模な実験によって、私たちのHumanAesExpertモデルは、他の最先端モデルよりも、HIAAで大幅にパフォーマンスが向上します。
私たちのデータセット、モデル、コードは、HIAAコミュニティを前進させるために公開されています。
プロジェクトWebページ: https://humanaesexpert.github.io/HumanAesExpert/
関連論文リスト
- Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。
我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。
この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-12T16:38:40Z) - HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - Are They the Same Picture? Adapting Concept Bottleneck Models for Human-AI Collaboration in Image Retrieval [3.2495565849970016]
textttCHAIRを使えば、人間が中間概念を修正できる。
本手法は,外部介入を伴わずに,画像検索指標の類似モデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-07-12T00:59:32Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。