論文の概要: HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation
- arxiv url: http://arxiv.org/abs/2603.10814v1
- Date: Wed, 11 Mar 2026 14:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.994046
- Title: HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation
- Title(参考訳): HanMoVLM:プロの芸術的絵画評価のための大規模視覚言語モデル
- Authors: Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen,
- Abstract要約: 我々は,中国の芸術領域において,大規模視覚言語モデル(VLM)をプロ級絵画評価の専門家に転換する。
我々は、本物のオークショングレードの傑作とAI生成の作品を特徴とする、新しいデータセットHanMo-Benchを紹介する。
提案したHanMoVLMは,このギャップを効果的に橋渡しし,専門家との整合性を高め,中国絵画の質を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 58.199846050357074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Vision-Language Models (VLMs) demonstrate impressive general visual capabilities, they remain artistically blind and unable to offer professional evaluation of artworks within specific artistic domains like human experts. To bridge this gap, we transform VLMs into experts capable of professional-grade painting evaluation in the Chinese Artistic Domain, which is more abstract and demands extensive artistic training for evaluation. We introduce HanMo-Bench, a new dataset that features authentic auction-grade masterpieces and AI-generated works, grounded in real-world market valuations. To realize the rigorous judgment, we propose the HanMoVLM and construct a Chain-of-Thought (CoT) validated by experts. This CoT guides the model to perform expert-level reasoning: from content identification and Region of Interest (RoI) localization to professional evaluation, guided by both theme-specific evaluation and typical three-tier evaluation in Chinese paintings. Furthermore, we design a reward function to refine the reasoning process of the HanMoVLM to improve the accuracy. We demonstrate that HanMoVLM can serve as a critical backbone for Test-time Scaling in image generation. By acting as a high-quality verifier, HanMoVLM enables generative models to select the most artistically superior outputs from multiple candidates. Experimental results and human studies confirm that the proposed HanMoVLM effectively bridges the gap, achieving a high consistency with professional experts and significantly improving the quality of Chinese Painting generation.
- Abstract(参考訳): 大きな視覚ランゲージモデル(VLM)は印象的な視覚能力を示すが、芸術的に盲目であり、人間の専門家のような特定の芸術分野における芸術作品の専門的な評価を提供することはできない。
このギャップを埋めるために、我々はVLMを、より抽象的で広範な芸術的訓練を必要とする中国芸術領域におけるプロ級の絵画評価能力を持つ専門家に転換する。
私たちはHanMo-Benchを紹介します。これは、本物のオークショングレードの傑作とAI生成作品を備えた、現実世界の市場評価に基づく、新しいデータセットです。
厳格な判断を実現するため、専門家が検証したCoT(Chain-of-Thought)の構築とHanMoVLMを提案する。
このCoTは、コンテンツ識別と関心領域(RoI)のローカライゼーションから専門的評価まで、中国の絵画におけるテーマ特化評価と典型的な3段階評価の両方によって導かれる、専門家レベルの推論を行うためのモデルである。
さらに,HanMoVLMの推論過程を改良し,精度を向上させるために報奨関数を設計する。
我々は,HanMoVLMが画像生成におけるテスト時間スケーリングの重要なバックボーンとして機能できることを実証した。
高品質な検証器として機能することにより、HanMoVLMは複数の候補から最も芸術的に優れた出力を選択することができる。
実験結果と人間による研究により、提案したHanMoVLMがギャップを効果的に橋渡しし、専門家と高い整合性を達成し、中国絵画の質を著しく向上させることが確認された。
関連論文リスト
- Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style [60.562013130566726]
VLMの芸術的スタイル予測能力の基盤となるメカニズムを特徴付ける。
我々は、アートスタイルの予測を駆動する概念を特定するために、潜在空間分解アプローチを採用する。
スタイルの予測に無関係な概念が使われた場合、美術史家はその成功の可能性がある理由を特定した。
論文 参考訳(メタデータ) (2026-03-11T17:49:45Z) - Deep Learning for Art Market Valuation [5.05381284813208]
本研究では,美術品の視覚的内容を予測モデルに組み込むことで,深層学習が美術市場の評価をいかに向上させるかを検討する。
主要なオークションハウスから繰り返し販売される大規模なデータセットを用いて,古典的ヘドニック回帰と木に基づく手法をベンチマークした。
アーティストのアイデンティティと事前の取引履歴が全体的な予測力を支配しているのに対して、視覚的な埋め込みは明らかに経済的に意味のある貢献をもたらす。
論文 参考訳(メタデータ) (2025-12-28T21:04:09Z) - Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry [4.720025219010595]
大規模言語モデル(LLM)は、創造的領域にますます適用されつつあるが、古典中国語の詩生成や評価において、その性能はいまだによく分かっていない。
本稿では,計算量,LCM-as-a-judgeアセスメント,人間専門家による検証を組み合わせた3段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T05:00:37Z) - A Structured Framework for Evaluating and Enhancing Interpretive Capabilities of Multimodal LLMs in Culturally Situated Tasks [3.491999371287299]
本研究では,現在主流となっているビジュアル言語モデル(VLM)の機能と特性を検証し,評価することを目的とする。
われわれはまず中国絵画評論の定量的枠組みを考案した。
この枠組みは, 評価的姿勢, 特徴焦点, 解説的品質を含む多次元的評価的特徴を, 人間の専門家の批判から抽出することによって構築された。
実験的な設計は、様々な視点から批評を生成するVLMの能力を評価するためのペルソナ誘導のプロンプトを含んでいた。
論文 参考訳(メタデータ) (2025-09-27T09:41:51Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - Have Large Vision-Language Models Mastered Art History? [3.790400719319821]
VLM(Vision-Language Models)が絵画のスタイル、作者、制作日を分類できるかどうかを検証する。
美術史家たちは長い間、芸術のユニークな側面を研究してきたが、スタイル予測はその分野の重要な要素であった。
論文 参考訳(メタデータ) (2024-09-05T13:33:57Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。