論文の概要: A Structured Framework for Evaluating and Enhancing Interpretive Capabilities of Multimodal LLMs in Culturally Situated Tasks
- arxiv url: http://arxiv.org/abs/2509.23208v1
- Date: Sat, 27 Sep 2025 09:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.105121
- Title: A Structured Framework for Evaluating and Enhancing Interpretive Capabilities of Multimodal LLMs in Culturally Situated Tasks
- Title(参考訳): 文化的タスクにおける多モードLLMの解釈能力の評価と向上のための構造的枠組み
- Authors: Haorui Yu, Ramon Ruiz-Dolz, Qiufeng Yi,
- Abstract要約: 本研究では,現在主流となっているビジュアル言語モデル(VLM)の機能と特性を検証し,評価することを目的とする。
われわれはまず中国絵画評論の定量的枠組みを考案した。
この枠組みは, 評価的姿勢, 特徴焦点, 解説的品質を含む多次元的評価的特徴を, 人間の専門家の批判から抽出することによって構築された。
実験的な設計は、様々な視点から批評を生成するVLMの能力を評価するためのペルソナ誘導のプロンプトを含んでいた。
- 参考スコア(独自算出の注目度): 3.491999371287299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to test and evaluate the capabilities and characteristics of current mainstream Visual Language Models (VLMs) in generating critiques for traditional Chinese painting. To achieve this, we first developed a quantitative framework for Chinese painting critique. This framework was constructed by extracting multi-dimensional evaluative features covering evaluative stance, feature focus, and commentary quality from human expert critiques using a zero-shot classification model. Based on these features, several representative critic personas were defined and quantified. This framework was then employed to evaluate selected VLMs such as Llama, Qwen, or Gemini. The experimental design involved persona-guided prompting to assess the VLM's ability to generate critiques from diverse perspectives. Our findings reveal the current performance levels, strengths, and areas for improvement of VLMs in the domain of art critique, offering insights into their potential and limitations in complex semantic understanding and content generation tasks. The code used for our experiments can be publicly accessed at: https://github.com/yha9806/VULCA-EMNLP2025.
- Abstract(参考訳): 本研究の目的は,従来の中国絵画の批評作成において,現在主流となっている視覚言語モデル(VLM)の機能と特性を検証し,評価することである。
そこで我々はまず中国絵画評論の定量的枠組みを考案した。
この枠組みは, ゼロショット分類モデルを用いて, 評価姿勢, 特徴焦点, コメント品質を含む多次元的評価特徴を人間の専門家批判から抽出することによって構築された。
これらの特徴に基づき、いくつかの代表的な批評家ペルソナを定義し、定量化した。
このフレームワークを使用して、Llama、Qwen、Geminiといった選択されたVLMを評価した。
実験的な設計は、様々な視点から批評を生成するVLMの能力を評価するためのペルソナ誘導のプロンプトを含んでいた。
本研究は,芸術批評分野におけるVLMの性能レベル,強み,改善領域を明らかにし,複雑な意味理解とコンテンツ生成タスクにおけるその可能性と限界について考察した。
私たちの実験で使用されるコードは、https://github.com/yha9806/VULCA-EMNLP2025で公開できます。
関連論文リスト
- TREAT: A Code LLMs Trustworthiness / Reliability Evaluation and Testing Framework [37.14734285161928]
本稿では,コードインテリジェンスタスクにおけるモデル性能の総合評価を行う評価フレームワークを提案する。
評価フレームワークは、既存のアプローチにおける重要な制限に対処し、主な改善点を4つ挙げた。
この評価枠組みに基づき,26の最先端モデルを評価し,その強度と限界を明らかにする。
論文 参考訳(メタデータ) (2025-10-20T05:05:00Z) - Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry [4.720025219010595]
大規模言語モデル(LLM)は、創造的領域にますます適用されつつあるが、古典中国語の詩生成や評価において、その性能はいまだによく分かっていない。
本稿では,計算量,LCM-as-a-judgeアセスメント,人間専門家による検証を組み合わせた3段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T05:00:37Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。
また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。