論文の概要: A Structured Framework for Evaluating and Enhancing Interpretive Capabilities of Multimodal LLMs in Culturally Situated Tasks
- arxiv url: http://arxiv.org/abs/2509.23208v1
- Date: Sat, 27 Sep 2025 09:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.105121
- Title: A Structured Framework for Evaluating and Enhancing Interpretive Capabilities of Multimodal LLMs in Culturally Situated Tasks
- Title(参考訳): 文化的タスクにおける多モードLLMの解釈能力の評価と向上のための構造的枠組み
- Authors: Haorui Yu, Ramon Ruiz-Dolz, Qiufeng Yi,
- Abstract要約: 本研究では,現在主流となっているビジュアル言語モデル(VLM)の機能と特性を検証し,評価することを目的とする。
われわれはまず中国絵画評論の定量的枠組みを考案した。
この枠組みは, 評価的姿勢, 特徴焦点, 解説的品質を含む多次元的評価的特徴を, 人間の専門家の批判から抽出することによって構築された。
実験的な設計は、様々な視点から批評を生成するVLMの能力を評価するためのペルソナ誘導のプロンプトを含んでいた。
- 参考スコア(独自算出の注目度): 3.491999371287299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to test and evaluate the capabilities and characteristics of current mainstream Visual Language Models (VLMs) in generating critiques for traditional Chinese painting. To achieve this, we first developed a quantitative framework for Chinese painting critique. This framework was constructed by extracting multi-dimensional evaluative features covering evaluative stance, feature focus, and commentary quality from human expert critiques using a zero-shot classification model. Based on these features, several representative critic personas were defined and quantified. This framework was then employed to evaluate selected VLMs such as Llama, Qwen, or Gemini. The experimental design involved persona-guided prompting to assess the VLM's ability to generate critiques from diverse perspectives. Our findings reveal the current performance levels, strengths, and areas for improvement of VLMs in the domain of art critique, offering insights into their potential and limitations in complex semantic understanding and content generation tasks. The code used for our experiments can be publicly accessed at: https://github.com/yha9806/VULCA-EMNLP2025.
- Abstract(参考訳): 本研究の目的は,従来の中国絵画の批評作成において,現在主流となっている視覚言語モデル(VLM)の機能と特性を検証し,評価することである。
そこで我々はまず中国絵画評論の定量的枠組みを考案した。
この枠組みは, ゼロショット分類モデルを用いて, 評価姿勢, 特徴焦点, コメント品質を含む多次元的評価特徴を人間の専門家批判から抽出することによって構築された。
これらの特徴に基づき、いくつかの代表的な批評家ペルソナを定義し、定量化した。
このフレームワークを使用して、Llama、Qwen、Geminiといった選択されたVLMを評価した。
実験的な設計は、様々な視点から批評を生成するVLMの能力を評価するためのペルソナ誘導のプロンプトを含んでいた。
本研究は,芸術批評分野におけるVLMの性能レベル,強み,改善領域を明らかにし,複雑な意味理解とコンテンツ生成タスクにおけるその可能性と限界について考察した。
私たちの実験で使用されるコードは、https://github.com/yha9806/VULCA-EMNLP2025で公開できます。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。
また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。