論文の概要: Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography
- arxiv url: http://arxiv.org/abs/2509.18839v1
- Date: Tue, 23 Sep 2025 09:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.797055
- Title: Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography
- Title(参考訳): ゼロショットシナリオとFewショットシナリオにおけるビジョンランゲージとマルチモーダル大言語モデルのベンチマーク:キリスト教イコノグラフィーに関する研究
- Authors: Gianmarco Spinaci, Lukas Klic, Giovanni Colavizza,
- Abstract要約: 本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the capabilities of Multimodal Large Language Models (LLMs) and Vision Language Models (VLMs) in the task of single-label classification of Christian Iconography. The goal was to assess whether general-purpose VLMs (CLIP and SigLIP) and LLMs, such as GPT-4o and Gemini 2.5, can interpret the Iconography, typically addressed by supervised classifiers, and evaluate their performance. Two research questions guided the analysis: (RQ1) How do multimodal LLMs perform on image classification of Christian saints? And (RQ2), how does performance vary when enriching input with contextual information or few-shot exemplars? We conducted a benchmarking study using three datasets supporting Iconclass natively: ArtDL, ICONCLASS, and Wikidata, filtered to include the top 10 most frequent classes. Models were tested under three conditions: (1) classification using class labels, (2) classification with Iconclass descriptions, and (3) few-shot learning with five exemplars. Results were compared against ResNet50 baselines fine-tuned on the same datasets. The findings show that Gemini-2.5 Pro and GPT-4o outperformed the ResNet50 baselines. Accuracy dropped significantly on the Wikidata dataset, where Siglip reached the highest accuracy score, suggesting model sensitivity to image size and metadata alignment. Enriching prompts with class descriptions generally improved zero-shot performance, while few-shot learning produced lower results, with only occasional and minimal increments in accuracy. We conclude that general-purpose multimodal LLMs are capable of classification in visually complex cultural heritage domains. These results support the application of LLMs as metadata curation tools in digital humanities workflows, suggesting future research on prompt optimization and the expansion of the study to other classification strategies and models.
- Abstract(参考訳): 本研究では,マルチモーダル大言語モデル (LLM) とビジョン言語モデル (VLM) を,キリスト教イコノグラフィーの単一ラベル分類の課題として評価する。
GPT-4o や Gemini 2.5 のような汎用 VLM (CLIP と SigLIP) と LLM は、一般に教師付き分類器によって対処されるイコノグラフィーを解釈し、それらの性能を評価することを目的としている。
RQ1) マルチモーダル LLM は、キリスト教聖人のイメージ分類においてどのように機能するのか?
そして(RQ2)、コンテキスト情報や少数ショットの例で入力を豊かにする場合、パフォーマンスはどのように変化するか?
Iconclassをネイティブにサポートする3つのデータセット(ArtDL, ICONCLASS, Wikidata)を用いてベンチマークを行った。
モデルは,(1)クラスラベルを用いた分類,(2)Iconclass記述による分類,(3)5つの例による少数ショット学習の3つの条件下で試験された。
結果は、同じデータセットで微調整されたResNet50ベースラインと比較された。
その結果、Gemini-2.5 ProとGPT-4oはResNet50ベースラインを上回った。
Wikidataデータセットでは、Siglipが最高精度スコアに達し、画像サイズに対するモデル感度とメタデータアライメントが示唆された。
クラス記述によるプロンプトの強化により、ゼロショットのパフォーマンスが向上する一方、少数ショットの学習では、時折精度が向上し、最小限の精度で結果が低下した。
汎用多目的LLMは、視覚的に複雑な文化遺産ドメインに分類できると結論付けている。
これらの結果は、デジタル人文科学ワークフローにおけるメタデータキュレーションツールとしてのLLMの適用を支援し、さらなる最適化と他の分類戦略やモデルへの研究の拡充を示唆している。
関連論文リスト
- STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文 参考訳(メタデータ) (2025-06-02T14:48:15Z) - Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities [31.293869275511412]
本稿では、画像分類の詳細な分析により、MLLM(Multimodal Large Language Models)を徹底的に再検討する。
この結果から,最新のMLLMは,複数のデータセット上でCLIPスタイルの視覚言語モデルに適合し,さらに優れることがわかった。
論文 参考訳(メタデータ) (2024-12-21T00:46:56Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。