論文の概要: VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation
- arxiv url: http://arxiv.org/abs/2603.26015v1
- Date: Fri, 27 Mar 2026 02:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.327993
- Title: VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation
- Title(参考訳): VLAgeBench: ゼロショット人間の年齢推定のための大規模視覚言語モデルのベンチマーク
- Authors: Rakib Hossain Sajib, Md Kishor Morol, Rajan Das Gupta, Mohammad Sakib Mahmood, Shuvra Smaran Das,
- Abstract要約: 本研究では,顔年齢推定のための大規模視覚言語モデル(LVLM)の総合的ゼロショット評価を提案する。
汎用LVLMはゼロショット設定で競合性能を提供できることを示す。
この研究は、LVLMを、法医学、医療監視、人間とコンピュータの相互作用における現実の応用のための有望なツールとして位置づけている。
- 参考スコア(独自算出の注目度): 0.19573380763700718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human age estimation from facial images represents a challenging computer vision task with significant applications in biometrics, healthcare, and human-computer interaction. While traditional deep learning approaches require extensive labeled datasets and domain-specific training, recent advances in large vision-language models (LVLMs) offer the potential for zero-shot age estimation. This study presents a comprehensive zero-shot evaluation of state-of-the-art Large Vision-Language Models (LVLMs) for facial age estimation, a task traditionally dominated by domain-specific convolutional networks and supervised learning. We assess the performance of GPT-4o, Claude 3.5 Sonnet, and LLaMA 3.2 Vision on two benchmark datasets, UTKFace and FG-NET, without any fine-tuning or task-specific adaptation. Using eight evaluation metrics, including MAE, MSE, RMSE, MAPE, MBE, $R^2$, CCC, and $\pm$5-year accuracy, we demonstrate that general-purpose LVLMs can deliver competitive performance in zero-shot settings. Our findings highlight the emergent capabilities of LVLMs for accurate biometric age estimation and position these models as promising tools for real-world applications. Additionally, we highlight performance disparities linked to image quality and demographic subgroups, underscoring the need for fairness-aware multimodal inference. This work introduces a reproducible benchmark and positions LVLMs as promising tools for real-world applications in forensic science, healthcare monitoring, and human-computer interaction. The benchmark focuses on strict zero-shot inference without fine-tuning and highlights remaining challenges related to prompt sensitivity, interpretability, computational cost, and demographic fairness.
- Abstract(参考訳): 顔画像からの人間の年齢推定は、バイオメトリックス、医療、人間とコンピュータの相互作用において重要な応用を持つコンピュータビジョンの課題である。
従来のディープラーニングアプローチはラベル付きデータセットとドメイン固有のトレーニングを必要とするが、大規模視覚言語モデル(LVLM)の最近の進歩は、ゼロショット年齢推定の可能性を秘めている。
本研究では,従来のドメイン固有の畳み込みネットワークと教師付き学習に支配される課題である顔面年齢推定のための,最先端のLVLM(Large Vision-Language Models)の包括的なゼロショット評価を提案する。
GPT-4o, Claude 3.5 Sonnet, LLaMA 3.2 Visionの2つのベンチマークデータセット(UTKFaceとFG-NET)において、微調整やタスク固有の適応を伴わずに、GPT-4o, Claude 3.5 Sonnet, LLaMA 3.2 Visionの性能を評価する。
MAE, MSE, RMSE, MAPE, MBE, $R^2$, CCC, $\pm$5-year といった8つの評価指標を用いて, 汎用LVLMがゼロショット設定で競合性能を提供できることを示した。
以上の結果から,LVLMが生長推定に有効であることを示すとともに,これらのモデルを現実の応用に有望なツールとして位置づけることができた。
さらに,画像の品質や階層的サブグループに関連する性能格差を強調し,公平性を意識したマルチモーダル推論の必要性を強調した。
この研究は再現可能なベンチマークを導入し、LVLMを法科学、医療監視、人間とコンピュータの相互作用における現実の応用のための有望なツールとして位置づける。
このベンチマークでは、微調整なしで厳密なゼロショット推論に焦点が当てられ、迅速な感度、解釈可能性、計算コスト、人口統計学的公正性に関連する残りの課題を強調している。
関連論文リスト
- HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文 参考訳(メタデータ) (2025-06-02T14:48:15Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。