論文の概要: Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
- arxiv url: http://arxiv.org/abs/2602.07815v2
- Date: Wed, 11 Feb 2026 06:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.021328
- Title: Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
- Title(参考訳): 顔画像による箱型年齢推定:視覚言語モデルと箱型伝統的建築の総合的ベンチマーク
- Authors: Simiao Ren, Xingyu Shen, Ankit Raj, Albert Dai, Caroline, Zhang, Yuan Xu, Zexi Chen, Siqi Wu, Chen Gong, Yuxin Zhang,
- Abstract要約: 本稿では,現代視覚言語モデルと特殊年齢推定アーキテクチャを比較した最初の大規模クロスパラダイム・ベンチマークを提案する。
ゼロショットVLMは、ほとんどの特殊なモデルよりも大幅に優れており、平均絶対誤差(MAE)は5.65年である。
最もパフォーマンスの良いVLM(Gemini 3 Flash Preview, MAE 4.32)は、最強の非LLMモデル(MiVOLO, MAE 5.10)を15%上回っている。
- 参考スコア(独自算出の注目度): 43.812923368984904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Facial age estimation plays a critical role in content moderation, age verification, and deepfake detection. However, no prior benchmark has systematically compared modern vision-language models (VLMs) with specialized age estimation architectures. We present the first large-scale cross-paradigm benchmark, evaluating 34 models - 22 specialized architectures with publicly available pretrained weights and 12 general-purpose VLMs - across eight standard datasets (UTKFace, IMDB-WIKI, MORPH, AFAD, CACD, FG-NET, APPA-REAL, and AgeDB), totaling 1,100 test images per model. Our key finding is striking: zero-shot VLMs significantly outperform most specialized models, achieving an average mean absolute error (MAE) of 5.65 years compared to 9.88 years for non-LLM models. The best-performing VLM (Gemini 3 Flash Preview, MAE 4.32) surpasses the strongest non-LLM model (MiVOLO, MAE 5.10) by 15%. MiVOLO - unique in combining face and body features using Vision Transformers - is the only specialized model that remains competitive with VLMs. We further analyze age verification at the 18-year threshold and find that most non-LLM models exhibit false adult rates between 39% and 100% for minors, whereas VLMs reduce this to 16%-29%. Additionally, coarse age binning (8-9 classes) consistently increases MAE beyond 13 years. Stratified analysis across 14 age groups reveals that all models struggle most at extreme ages (under 5 and over 65). Overall, these findings challenge the assumption that task-specific architectures are necessary for high-performance age estimation and suggest that future work should focus on distilling VLM capabilities into efficient specialized models.
- Abstract(参考訳): 顔の年齢推定は、コンテンツモデレーション、年齢検証、ディープフェイク検出において重要な役割を果たす。
しかしながら、以前のベンチマークでは、現代の視覚言語モデル(VLM)と特殊な年齢推定アーキテクチャを体系的に比較することはなかった。
提案する大規模クロスパラダイムベンチマークでは,24のモデル – 公開事前トレーニングされた重量を持つ22の特殊なアーキテクチャと12の汎用VLM – を,標準データセット(UTKFace,IMDB-WIKI,MORPH,AFAD,CACD,FG-NET,APPA-REAL,AgeDB)で評価した。
ゼロショットVLMは、LLM以外のモデルでは9.88年に対して平均平均絶対誤差(MAE)は5.65年である。
最もパフォーマンスの良いVLM(Gemini 3 Flash Preview, MAE 4.32)は、最強の非LLMモデル(MiVOLO, MAE 5.10)を15%上回っている。
MiVOLO (Vision Transformers) は、VLMと競合する唯一の特殊モデルである。
以上の結果から,非LLMモデルでは未成年者では39%から100%の偽成人率を示すのに対し,VLMでは16%~29%に減少することがわかった。
さらに、粗い年齢ビンニング(8-9クラス)は13年以上にわたってMAEを継続的に増加させる。
14歳以上の層別分析により、全てのモデルが極端な年齢(5歳以上65歳以上)で最も苦戦していることが明らかとなった。
これらの知見は, タスク固有のアーキテクチャが高性能な年齢推定に必要であるという仮定に疑問を呈し, 今後の課題は, VLM能力を効率の良い特殊モデルに蒸留することに集中することである。
関連論文リスト
- Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery [6.903111965769448]
凍結したFaRLビジョンバックボーンをベースとしたマルチタスクアーキテクチャを提案する。
視力の低下と年齢差を伴って, 全体の清潔化を訓練した。
F2スコアが0.801から0.857から1%の偽エラー率で18以下で検出された。
アンダー-12タスクとアンダー-15タスクでは、F2の各ブースターは0.666から0.955、それぞれ0.689から0.916である。
論文 参考訳(メタデータ) (2025-06-12T13:36:27Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。