論文の概要: Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
- arxiv url: http://arxiv.org/abs/2602.07815v1
- Date: Sun, 08 Feb 2026 04:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.812945
- Title: Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
- Title(参考訳): 顔画像による箱型年齢推定:視覚言語モデルと箱型伝統的建築の総合的ベンチマーク
- Authors: Simiao Ren,
- Abstract要約: 本稿では,現代視覚言語モデル(VLM)と特殊年齢推定アーキテクチャを比較した,最初の大規模クロスパラダイムベンチマークを提案する。
Emphzero-shot VLMは、LLM以外のモデルでは9.88よりも平均5.65年のMAEを達成した。
- 参考スコア(独自算出の注目度): 3.917303377795418
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Facial age estimation is critical for content moderation, age verification, and deepfake detection, yet no prior benchmark has systematically compared modern vision-language models (VLMs) against specialized age estimation architectures. We present the first large-scale cross-paradigm benchmark, evaluating \textbf{34 models} -- 22 specialized architectures with publicly available pretrained weights and 12 general-purpose VLMs -- across \textbf{8 standard datasets} (UTKFace, IMDB-WIKI, MORPH, AFAD, CACD, FG-NET, APPA-REAL, AgeDB) totaling 1{,}100 test images per model. Our key finding is striking: \emph{zero-shot VLMs significantly outperform most specialized models}, achieving an average MAE of 5.65 years compared to 9.88 for non-LLM models. The best VLM (Gemini~3 Flash Preview, MAE~4.32) outperforms the best non-LLM model (MiVOLO, MAE~5.10) by 15\%. Only MiVOLO, which uniquely combines face and body features via Vision Transformers, competes with VLMs. We further analyze age verification at the 18-year threshold, revealing that non-LLM models exhibit 60--100\% false adult rates on minors while VLMs achieve 13--25\%, and demonstrate that coarse age binning (8--9 classes) consistently degrades MAE beyond 13 years. Our stratified analysis across 14 age groups reveals that all models struggle most at extreme ages ($<$5 and 65+). These findings challenge the assumption that task-specific architectures are necessary for age estimation and suggest that the field should redirect toward distilling VLM capabilities into efficient specialized models.
- Abstract(参考訳): 顔の年齢推定は、コンテンツモデレーション、年齢検証、ディープフェイク検出に重要であるが、現代の視覚言語モデル(VLM)と特殊年齢推定アーキテクチャを体系的に比較する以前のベンチマークはない。
提案する大規模クロスパラダイム・ベンチマークでは, 標準データセット(UTKFace, IMDB-WIKI, MORPH, AFAD, CACD, FG-NET, APPA-REAL, AgeDB)にまたがる22の特殊アーキテクチャと12の汎用VLMを比較検討した。
Emph{zero-shot VLMsは、LLM以外のモデルでは9.88よりも平均5.65年のMAEを達成した。
最高のVLM(Gemini~3 Flash Preview, MAE~4.32)は、最高の非LLMモデル(MiVOLO, MAE~5.10)を15.%上回っている。
顔と体の特徴をVision Transformersで組み合わせたMiVOLOだけがVLMと競合する。
以上の結果から,非LLMモデルが未成年者に対して60-100\%の偽成人率を示すのに対し,VLMは13-25\%であり,粗い年齢(8-9クラス)が13年以上のMAEを一貫して低下させることを示した。
14の年齢グループを対象とした階層化分析では、すべてのモデルが極端な年齢(5ドルと65ドル以上)で最も苦労していることが示されています。
これらの結果は, タスク固有アーキテクチャが年齢推定に必要であるという仮定に疑問を呈し, VLM の蒸留能力から効率的な特化モデルへのリダイレクトを示唆している。
関連論文リスト
- Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery [6.903111965769448]
凍結したFaRLビジョンバックボーンをベースとしたマルチタスクアーキテクチャを提案する。
視力の低下と年齢差を伴って, 全体の清潔化を訓練した。
F2スコアが0.801から0.857から1%の偽エラー率で18以下で検出された。
アンダー-12タスクとアンダー-15タスクでは、F2の各ブースターは0.666から0.955、それぞれ0.689から0.916である。
論文 参考訳(メタデータ) (2025-06-12T13:36:27Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。