論文の概要: ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding
- arxiv url: http://arxiv.org/abs/2507.14533v1
- Date: Sat, 19 Jul 2025 08:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.930783
- Title: ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding
- Title(参考訳): ArtiMuse:ジョイントスコーリングとエキスパートレベル理解による微細画像美学評価
- Authors: Shuo Cao, Nan Ma, Jiayang Li, Xiaohui Li, Lihao Shao, Kaiwen Zhu, Yu Zhou, Yuandong Pu, Jiarui Wu, Jiaquan Wang, Bo Qu, Wenhai Wang, Yu Qiao, Dajuin Yao, Yihao Liu,
- Abstract要約: ArtiMuseはMLLMベースの革新的なIAAモデルで、Joint ScoringとExpert-Level Understanding機能を備えている。
ArtiMuse-10Kは、5つの主要なカテゴリと15のサブカテゴリにまたがる10,000のイメージからなる、最初の専門家による画像美的データセットである。
- 参考スコア(独自算出の注目度): 32.55711618391249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of educational applications, artistic creation, and AI-generated content (AIGC) technologies has substantially increased practical requirements for comprehensive Image Aesthetics Assessment (IAA), particularly demanding methods capable of delivering both quantitative scoring and professional understanding. Multimodal Large Language Model (MLLM)-based IAA methods demonstrate stronger perceptual and generalization capabilities compared to traditional approaches, yet they suffer from modality bias (score-only or text-only) and lack fine-grained attribute decomposition, thereby failing to support further aesthetic assessment. In this paper, we present:(1) ArtiMuse, an innovative MLLM-based IAA model with Joint Scoring and Expert-Level Understanding capabilities; (2) ArtiMuse-10K, the first expert-curated image aesthetic dataset comprising 10,000 images spanning 5 main categories and 15 subcategories, each annotated by professional experts with 8-dimensional attributes analysis and a holistic score. Both the model and dataset will be made public to advance the field.
- Abstract(参考訳): 教育的応用の急速な進歩、芸術的創造、AIGC(AIGC)技術は、総合的な画像美学評価(IAA)の実践的要件を大幅に増加させ、特に定量的評価と専門的理解の両方を提供する方法を必要としている。
MLLM(Multimodal Large Language Model)に基づくIAA法は、従来のアプローチに比べて知覚と一般化の能力が強いが、モダリティバイアス(スコアのみまたはテキストのみ)に悩まされ、微粒な属性分解を欠いているため、さらに美的評価をサポートしない。
本稿では,(1)MLLMをベースとしたAIAモデルであるArtiMuseと,(2)ArtiMuse-10Kは,5つの主要カテゴリと15のサブカテゴリにまたがる10,000の画像からなる,最初の専門家による画像美的データセットであり,それぞれが8次元属性分析と全体的スコアを持つ専門家によって注釈付けされている。
モデルとデータセットの両方が公開され、フィールドが前進する。
関連論文リスト
- MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis [1.8230765666532822]
MIRAGEは、OCTと走査型レーザー眼鏡(SLO)画像の解析のための新しいFMである。
OCT/SLO分類とセグメンテーションタスクを用いた新しい評価ベンチマークを提案する。
一般および専門的なFMとセグメンテーション法との比較は,MIRAGEの両タスクにおける優位性を示している。
論文 参考訳(メタデータ) (2025-06-10T15:25:55Z) - Towards Explainable Partial-AIGC Image Quality Assessment [51.42831861127991]
AI生成画像(AGI)に対する画像品質評価(IQA)に関する広範な研究にもかかわらず、ほとんどの研究は完全なAI生成出力に焦点を当てている。
我々は、説明可能な部分AIGC画像品質評価(EPAIQA)を目的とした、最初の大規模PAIデータセットを構築した。
我々の研究は、総合的なPAI品質評価のためのIQA分野における先駆的な取り組みである。
論文 参考訳(メタデータ) (2025-04-12T17:27:50Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment [11.253286640424811]
HumanBeautyはHuman Image Aesthetic Assessment (HIAA)のために構築された最初のデータセット
HumanAesExpertは人間の画像の美的評価のための強力なビジョン言語モデルである。
論文 参考訳(メタデータ) (2025-03-31T09:58:11Z) - Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model [19.2881640541533]
大言語モデル(MLLM)は、画像品質評価(IQA)と画像審美評価(IAA)に大きな可能性を示している。
本稿では、RealQA(RealQA)と呼ばれる新しいデータセットについて紹介する。
これらの属性は、低レベル(例えば、画像の明瞭度)、中レベル(例えば、主観的完全性)、高レベル(例えば、構成)の3つのレベルにまたがる。
驚くべきことに、2つの重要な桁だけを予測することで、次のトークンパラダイムはSOTAのパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-03-08T09:49:10Z) - AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。
データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。
粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文 参考訳(メタデータ) (2024-12-20T08:47:07Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - AiSciVision: A Framework for Specializing Large Multimodal Models in Scientific Image Classification [2.4515373478215343]
対話型研究パートナーにLMM(Large Multimodal Models)を専門とするフレームワークであるAiSciVisionを紹介する。
私たちのフレームワークでは、Visual Retrieval-Augmented Generation (VisRAG) と、エージェントワークフローで使用されるドメイン固有のツールの2つの重要なコンポーネントを使用します。
AiSciVisionを3つの実世界の科学的画像分類データセット(養殖池、ウナギ、ソーラーパネル)で評価した。
論文 参考訳(メタデータ) (2024-10-28T19:35:47Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)は、ノイズ、ぼかし、圧縮、悪天候などの様々な要因によって劣化した入力から高品質な画像を復元することを目的としている。
従来のIR手法は、一般的に特定の種類の劣化に焦点を当てており、複雑な歪みを伴う現実世界のシナリオにおけるそれらの効果を制限している。
オールインワンのイメージ復元パラダイムが最近登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供している。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Multi-modal Learnable Queries for Image Aesthetics Assessment [55.28571422062623]
本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習機能から美学関連の特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAで新たな最先端性能を実現し、SRCCとPLCCでそれぞれ7.7%と8.3%を上回りました。
論文 参考訳(メタデータ) (2024-05-02T14:31:47Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and
a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。
そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。
実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-27T12:59:15Z) - A Perceptual Quality Assessment Exploration for AIGC Images [39.72512063793346]
本稿では,AGIの品質評価における技術的問題,AIアーティファクト,不自然さ,不明瞭さ,美学などの主要な評価側面について論じる。
本稿では,拡散モデルから生成される1080個のAGIからなる最初の知覚的AGI品質評価データベース AGIQA-1K について述べる。
論文 参考訳(メタデータ) (2023-03-22T14:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。