論文の概要: KidsArtBench: Multi-Dimensional Children's Art Evaluation with Attribute-Aware MLLMs
- arxiv url: http://arxiv.org/abs/2512.12503v1
- Date: Sun, 14 Dec 2025 00:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.28705
- Title: KidsArtBench: Multi-Dimensional Children's Art Evaluation with Attribute-Aware MLLMs
- Title(参考訳): KidsArtBench:Attribute-Aware MLLMを用いた多次元子供のアート評価
- Authors: Mingrui Ye, Chanjin Zheng, Zengyi Yu, Chenyu Xiang, Zhixue Zhao, Zheng Yuan, Helen Yannakoudakis,
- Abstract要約: KidsArtBenchは、1万以上の子どものアートワーク(年齢5~15歳)のベンチマークで、9つのルーリックな次元の12人の専門家教育者が注釈を付けています。
KidsArtBenchは、子供のアートワークをターゲットとし、コメントの監督と多次元アノテーションを組み合わせることで、順序付け評価と形式的フィードバックの両方を可能にする。
- 参考スコア(独自算出の注目度): 13.1845557800464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show remarkable progress across many visual-language tasks; however, their capacity to evaluate artistic expression remains limited. Aesthetic concepts are inherently abstract and open-ended, and multimodal artwork annotations are scarce. We introduce KidsArtBench, a new benchmark of over 1k children's artworks (ages 5-15) annotated by 12 expert educators across 9 rubric-aligned dimensions, together with expert comments for feedback. Unlike prior aesthetic datasets that provide single scalar scores on adult imagery, KidsArtBench targets children's artwork and pairs multi-dimensional annotations with comment supervision to enable both ordinal assessment and formative feedback. Building on this resource, we propose an attribute-specific multi-LoRA approach, where each attribute corresponds to a distinct evaluation dimension (e.g., Realism, Imagination) in the scoring rubric, with Regression-Aware Fine-Tuning (RAFT) to align predictions with ordinal scales. On Qwen2.5-VL-7B, our method increases correlation from 0.468 to 0.653, with the largest gains on perceptual dimensions and narrowed gaps on higher-order attributes. These results show that educator-aligned supervision and attribute-aware training yield pedagogically meaningful evaluations and establish a rigorous testbed for sustained progress in educational AI. We release data and code with ethics documentation.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて顕著な進歩を示すが、芸術的表現を評価する能力は依然として限られている。
美的概念は本質的に抽象的でオープンエンドであり、マルチモーダルアートのアノテーションは乏しい。
KidsArtBenchは、1万以上の子どものアートワーク(年齢5~15歳)の新たなベンチマークで、9つのルーブリックな次元の12人の専門家教育者が注釈を付け、フィードバックのための専門家のコメントとともに紹介します。
成人画像の単一のスカラースコアを提供する以前の美的データセットとは異なり、キッズArtBenchは子供のアートワークをターゲットとし、コメントの監督と多次元アノテーションを組み合わせることで、順序性評価と形式的フィードバックの両方を可能にする。
この資源を基盤として,各属性がスコアリングルーリックの異なる評価次元(例えば,リアリズム,イマジネーション)に対応し,レグレッション・アウェア・ファイン・チューニング(RAFT)を用いて予測を順序尺度と整合させる,属性特異的なマルチロラ手法を提案する。
Qwen2.5-VL-7Bでは,その相関関係が0.468から0.653に増加する。
これらの結果から,教育者による指導と属性認識訓練が教育的評価に有意義な成果をもたらし,教育AIの継続的な進歩のための厳密な試験場を確立することが示唆された。
倫理的なドキュメントを備えたデータとコードをリリースします。
関連論文リスト
- Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings [18.09092203643732]
図面からの自動的かつ解釈可能な創造性評価のためのデータ駆動型フレームワークを提案する。
6]で提案された認知的エビデンスにより、創造性は、引き出されたもの(コンテンツ)と引き出されたもの(スタイル)の両方から生ずることができ、創造性スコアをこれら2つの相補的な次元の関数として再解釈する。
論文 参考訳(メタデータ) (2025-11-17T02:16:01Z) - ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding [32.55711618391249]
ArtiMuseはMLLMベースの革新的なIAAモデルで、Joint ScoringとExpert-Level Understanding機能を備えている。
ArtiMuse-10Kは、5つの主要なカテゴリと15のサブカテゴリにまたがる10,000のイメージからなる、最初の専門家による画像美的データセットである。
論文 参考訳(メタデータ) (2025-07-19T08:27:21Z) - Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - AACP: Aesthetics assessment of children's paintings based on
self-supervised learning [17.672268781368672]
小児絵画の美学評価(AACP)は画像美学評価(IAA)の重要な分野である
これまでのアプローチでは、大規模なデータセットのトレーニングと、画像に対する美学スコアの提供に頼っていた。
子どもの絵の美学評価データセットを構築し,自己指導型学習モデルを構築した。
論文 参考訳(メタデータ) (2024-03-12T12:07:00Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter [19.830089364830066]
ArtGPT-4は、芸術的理解における既存のモデルの限界に対処するために設計された大きな視覚言語モデルである。
芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映する。
論文 参考訳(メタデータ) (2023-05-12T14:04:30Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。