論文の概要: MiVOLO: Multi-input Transformer for Age and Gender Estimation
- arxiv url: http://arxiv.org/abs/2307.04616v1
- Date: Mon, 10 Jul 2023 14:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:43:59.039359
- Title: MiVOLO: Multi-input Transformer for Age and Gender Estimation
- Title(参考訳): MiVOLO: 年齢・性別推定用マルチ入力変換器
- Authors: Maksim Kuprashevich and Irina Tolstykh
- Abstract要約: 最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Age and gender recognition in the wild is a highly challenging task: apart
from the variability of conditions, pose complexities, and varying image
quality, there are cases where the face is partially or completely occluded. We
present MiVOLO (Multi Input VOLO), a straightforward approach for age and
gender estimation using the latest vision transformer. Our method integrates
both tasks into a unified dual input/output model, leveraging not only facial
information but also person image data. This improves the generalization
ability of our model and enables it to deliver satisfactory results even when
the face is not visible in the image. To evaluate our proposed model, we
conduct experiments on four popular benchmarks and achieve state-of-the-art
performance, while demonstrating real-time processing capabilities.
Additionally, we introduce a novel benchmark based on images from the Open
Images Dataset. The ground truth annotations for this benchmark have been
meticulously generated by human annotators, resulting in high accuracy answers
due to the smart aggregation of votes. Furthermore, we compare our model's age
recognition performance with human-level accuracy and demonstrate that it
significantly outperforms humans across a majority of age ranges. Finally, we
grant public access to our models, along with the code for validation and
inference. In addition, we provide extra annotations for used datasets and
introduce our new benchmark.
- Abstract(参考訳): 年齢と性別の認識は極めて困難な課題であり、条件の多様性、複雑なポーズ、画像の質の変化とは別に、顔が部分的にあるいは完全に隠されているケースもある。
最新の視覚変換器を用いた年齢・性別推定法であるMiVOLO(Multi Input VOLO)を提案する。
本手法は, 顔情報だけでなく, 人物画像データも活用し, 両タスクを統一的な入出力モデルに統合する。
これにより、画像に顔が見えない場合でも、モデルの一般化能力が向上し、良好な結果が得られる。
提案モデルを評価するために,4つのベンチマーク実験を行い,実時間処理性能を実証した。
さらに,open imagesデータセットの画像に基づく新しいベンチマークも導入する。
このベンチマークの根拠となる真理アノテーションは、人間のアノテーションによって慎重に生成され、投票のスマートアグリゲーションによって高い精度の回答が得られた。
さらに,本モデルにおける年齢認識性能と人間レベルの精度を比較し,大半が人間よりも優れていたことを示す。
最後に、バリデーションと推論のためのコードとともに、モデルへのパブリックアクセスを許可します。
さらに、使用済みデータセットに追加のアノテーションを提供し、新しいベンチマークを紹介します。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Identity-Preserving Aging of Face Images via Latent Diffusion Models [22.2699253042219]
顔画像の老化・老化に対する遅延テキスト・ツー・イメージ拡散モデルの提案, 評価, 評価を行った。
我々のモデルは、数発の訓練で成功し、直感的なテキストプロンプトによって制御できることのメリットが加わった。
論文 参考訳(メタデータ) (2023-07-17T15:57:52Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Multi-modal Affect Analysis using standardized data within subjects in
the Wild [8.05417723395965]
本稿では,表情(EXP)に着目した感情認識手法を提案する。
提案手法は,評価精度とロバスト性を効果的に向上する。
論文 参考訳(メタデータ) (2021-07-07T04:18:28Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - Age Range Estimation using MTCNN and VGG-Face Model [0.11454121287632513]
CNNを用いた年齢範囲推定は無数の分野に応用されている。
CNNの深いモデルは、提案された作業における人々の年齢範囲の識別に使用されます。
論文 参考訳(メタデータ) (2021-04-17T15:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。