Fugu-MT 論文翻訳(概要): Fine-Tuning a Large Vision-Language Model for Artwork's Scoring and Critique

論文の概要: Fine-Tuning a Large Vision-Language Model for Artwork's Scoring and Critique

arxiv url: http://arxiv.org/abs/2602.13306v1
Date: Mon, 09 Feb 2026 19:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 16:22:49.725941
Title: Fine-Tuning a Large Vision-Language Model for Artwork's Scoring and Critique
Title（参考訳）: アートワークのスコーリングと批評のための大規模視覚言語モデルの微調整
Authors: Zhehan Zhang, Meihua Qian, Li Luo, Siyu Huang, Chaoyi Zhou, Ripon Saha, Xinxin Song,
Abstract要約: 視覚言語モデルQwen2-VL-7Bをマルチタスク学習で微調整し,人間の絵画の自動創造性評価のための枠組みを提案する。私たちのデータセットには、1-100スケールで収集された1000枚の人造絵画が含まれており、短い人間による記述と組み合わせられている。実験ではPearson r > 0.97 となり、100点スケールで約3.95 となる。
参考スコア（独自算出の注目度）: 11.787232686718367
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Assessing artistic creativity is foundational to creativity research and arts education, yet manual scoring (e.g., Torrance Tests of Creative Thinking) is labor-intensive at scale. Prior machine-learning approaches show promise for visual creativity scoring, but many rely mainly on image features and provide limited or no explanatory feedback. We propose a framework for automated creativity assessment of human paintings by fine-tuning the vision-language model Qwen2-VL-7B with multi-task learning. Our dataset contains 1000 human-created paintings scored on a 1-100 scale and paired with a short human-written description (content or artist explanation). Two expert raters evaluated each work using a five-dimension rubric (originality, color, texture, composition, content) and provided written critiques; we use an 80/20 train-test split. We add a lightweight regression head on the visual encoder output so the model can predict a numerical score and generate rubric-aligned feedback in a single forward pass. By embedding the structured rubric and the artwork description in the system prompt, we constrain the generated text to match the quantitative prediction. Experiments show strong accuracy, achieving Pearson r > 0.97 and MAE about 3.95 on the 100-point scale. Qualitative evaluation indicates the generated feedback is semantically close to expert critiques (average SBERT cosine similarity = 0.798). The proposed approach bridges computer vision and art assessment and offers a scalable tool for creativity research and classroom feedback.
Abstract（参考訳）: 芸術的創造性を評価することは創造的な研究と芸術教育の基礎であるが、手動のスコアリング(例えば、創造的思考のトーランステスト)は大規模に労働集約的である。従来の機械学習アプローチは、視覚的創造性のスコアリングを約束するが、多くは画像の特徴に大きく依存し、限定的あるいは説明的フィードバックを提供する。視覚言語モデルQwen2-VL-7Bをマルチタスク学習で微調整し,人間の絵画の自動創造性評価のための枠組みを提案する。私たちのデータセットには、1-100スケールで収集された1000枚の人造絵画が含まれており、短い人間による記述(コンテンツやアーティストの説明)と組み合わせられている。 2人の専門家が5次元ルーブリック(原産地,色,テクスチャ,組成,内容)を用いて各作品を評価し,80/20の列車分割試験を行った。視覚エンコーダ出力に軽量回帰ヘッドを付加することにより,モデルが数値的なスコアを予測し,1回のフォワードパスでルーリック整列フィードバックを生成する。システムプロンプトに構造化ルーブリックとアートワーク記述を埋め込むことで,生成したテキストを定量的な予測に合わせるよう制約する。実験ではPearson r > 0.97 となり、100点スケールで約3.95 となる。質的評価は、生成されたフィードバックが専門家の批判に意味的に近いことを示している(平均的なSBERTコサイン類似度 = 0.798)。提案手法は、コンピュータビジョンとアートアセスメントを橋渡しし、創造性の研究と教室でのフィードバックのためのスケーラブルなツールを提供する。

関連論文リスト

KidsArtBench: Multi-Dimensional Children's Art Evaluation with Attribute-Aware MLLMs [13.1845557800464]
KidsArtBenchは、1万以上の子どものアートワーク(年齢5～15歳)のベンチマークで、9つのルーリックな次元の12人の専門家教育者が注釈を付けています。 KidsArtBenchは、子供のアートワークをターゲットとし、コメントの監督と多次元アノテーションを組み合わせることで、順序付け評価と形式的フィードバックの両方を可能にする。
論文参考訳（メタデータ） (2025-12-14T00:24:48Z)
Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings [18.09092203643732]
図面からの自動的かつ解釈可能な創造性評価のためのデータ駆動型フレームワークを提案する。 6]で提案された認知的エビデンスにより、創造性は、引き出されたもの(コンテンツ)と引き出されたもの(スタイル)の両方から生ずることができ、創造性スコアをこれら2つの相補的な次元の関数として再解釈する。
論文参考訳（メタデータ） (2025-11-17T02:16:01Z)
Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment [4.334576480811837]
本稿では,創造的文章評価のための新しい好奇心駆動型LCM-as-a-judgeを提案する。本手法は,全アノテータが互いに一致しない主観評価において特に有用である。
論文参考訳（メタデータ） (2025-10-01T04:29:36Z)
TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation [0.0]
心理学からアーティストや理論を実践する実践者へのインタビューに基づいて、私たちは、創造性の感情的、象徴的、文化的、倫理的次元を捉えた12の特徴を定義します。環境対話性や空洞アークといったトラストは高い信頼性で予測される。私たちの研究は、文化的・美的な洞察と計算モデリングを結びつけることで、創造性を数字に還元するのではなく、アーティスト、研究者、AIシステムが有意義に協力するための共通の言語と解釈可能なツールを提供することを目的としています。
論文参考訳（メタデータ） (2025-09-29T06:24:18Z)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳（メタデータ） (2025-03-09T14:14:02Z)
APDDv2: Aesthetics of Paintings and Drawings Dataset with Artist Labeled Scores and Comments [45.57709215036539]
Aesthetics Paintings and Drawings dataset (APDD)は,24の異なる芸術カテゴリーと10の美的属性を含む最初の総合的な絵画コレクションである。 APDDv2は画像コーパスを拡張し、アノテーションの品質を改善し、詳細な言語コメントを特徴としている。本稿では,ArtCLIP(Art Assessment Network for Specific Painting Styles)の改訂版について紹介する。
論文参考訳（メタデータ） (2024-11-13T11:46:42Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-03-24T23:57:28Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。 Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文参考訳（メタデータ） (2022-05-27T07:36:29Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。