Fugu-MT 論文翻訳(概要): Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery

論文の概要: Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery

arxiv url: http://arxiv.org/abs/2506.10689v1
Date: Thu, 12 Jun 2025 13:36:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.754171
Title: Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery
Title（参考訳）: マルチタスク・マルチエージェント手法による非拘束画像中のマイナー検出
Authors: Christopher Gaul, Eduardo Fidalgo, Enrique Alegre, Rocío Alaiz Rodríguez, Eri Pérez Corral,
Abstract要約: 凍結したFaRLビジョンバックボーンをベースとしたマルチタスクアーキテクチャを提案する。視力の低下と年齢差を伴って, 全体の清潔化を訓練した。 F2スコアが0.801から0.857から1%の偽エラー率で18以下で検出された。アンダー-12タスクとアンダー-15タスクでは、F2の各ブースターは0.666から0.955、それぞれ0.689から0.916である。
参考スコア（独自算出の注目度）: 6.903111965769448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate automatic screening of minors in unconstrained images demands models that are robust to distribution shift and resilient to the children under-representation in publicly available data. To overcome these issues, we propose a multi-task architecture with dedicated under/over-age discrimination tasks based on a frozen FaRL vision-language backbone joined with a compact two-layer MLP that shares features across one age-regression head and four binary under-age heads for age thresholds of 12, 15, 18, and 21 years, focusing on the legally critical age range. To address the severe class imbalance, we introduce an $\alpha$-reweighted focal-style loss and age-balanced mini-batch sampling, which equalizes twelve age bins during stochastic optimization. Further improvement is achieved with an age gap that removes edge cases from the loss. Moreover, we set a rigorous evaluation by proposing the Overall Under-Age Benchmark, with 303k cleaned training images and 110k test images, defining both the "ASORES-39k" restricted overall test, which removes the noisiest domains, and the age estimation wild shifts test "ASWIFT-20k" of 20k-images, stressing extreme pose ($>$45{\deg}), expression, and low image quality to emulate real-world shifts. Trained on the cleaned overall set with resampling and age gap, our multiage model "F" lowers the root-mean-square-error on the ASORES-39k restricted test from 5.733 (age-only baseline) to 5.656 years and lifts under-18 detection from F2 score of 0.801 to 0.857 at 1% false-adult rate. Under the domain shift to the wild data of ASWIFT-20k, the same configuration nearly sustains 0.99 recall while boosting F2 from 0.742 to 0.833 with respect to the age-only baseline, demonstrating strong generalization under distribution shift. For the under-12 and under-15 tasks, the respective boosts in F2 are from 0.666 to 0.955 and from 0.689 to 0.916, respectively.
Abstract（参考訳）: 制約のない画像における未成年者の正確な自動スクリーニングは、配布シフトに頑健で、公開データで表現されていない子供たちに回復力のあるモデルを要求する。これらの課題を克服するため,FARL視覚言語バックボーンを基本としたマルチタスクアーキテクチャを提案し,12歳,15歳,18歳,21歳を対象に,年齢差1歳,2歳未満4歳,年齢差4歳,年齢差4歳,年齢差4歳,年齢差1歳,年齢差1歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差1歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢差2歳,年齢2歳,年齢2歳,年齢2歳,年齢2歳,年齢2歳,年齢2歳,年齢2歳,21歳,21歳を対象とした。重度のクラス不均衡に対処するために,確率最適化時に12個の年齢ビンに等しくなる,$\alpha$-reweighted focal-style lossと年齢バランスのミニバッチサンプリングを導入する。さらなる改善は、損失からエッジケースを除去する年齢差によって達成される。さらに、303kのトレーニング画像と110kのテスト画像を用いて、303kのトレーニング画像と、最もノイズの多い領域を除去する"ASORES-39k"制限された全体テストと、20kの"ASWIFT-20k"の年齢推定ワイルドシフトテストの両方を定義し、極端なポーズ(+45{\deg})、表現、および実世界のシフトをエミュレートする低画質の画像品質を厳格に評価することで、厳密な評価を行った。 ASORES-39k制限試験のルート平均二乗誤差を5.733 (ageonly baseline) から5.656年とし、F2スコアの0.801から0.857までの18歳未満の検出を1%の偽処理率で引き上げた。 ASWIFT-20kのワイルドデータへのドメインシフトでは、F2を0.742から0.833に引き上げながら0.99リコールをほぼ維持し、分布シフトの下で強い一般化を示す。アンダー-12タスクとアンダー-15タスクでは、F2の各ブースターは0.666から0.955、それぞれ0.689から0.916である。

関連論文リスト

Overcoming Occlusions in the Wild: A Multi-Task Age Head Approach to Age Estimation [8.458496687170665]
本稿では,GAN(Generative Adversarial Network)とトランスフォーマーアーキテクチャを組み合わせて,隠蔽顔から頑健な年齢推定を実現する手法を提案する。 FG-NET, UTKFace, MORPHデータセットによる実験結果から, 提案手法が既存の顔年齢推定技術を超えていることが判明した。
論文参考訳（メタデータ） (2025-06-16T13:00:05Z)
RoBiS: Robust Binary Segmentation for High-Resolution Industrial Images [3.226330965024265]
現実シナリオにおける教師なし異常検出は重要な課題である。現在の方法はMVTec AD 2ベンチマークで大幅に性能が低下している。 3つのコアモジュールからなる堅牢なフレームワークRoBiSを提案する。
論文参考訳（メタデータ） (2025-05-27T13:04:48Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。 FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文参考訳（メタデータ） (2025-04-16T17:07:16Z)
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文参考訳（メタデータ） (2025-02-25T13:09:34Z)
From Age Estimation to Age-Invariant Face Recognition: Generalized Age Feature Extraction Using Order-Enhanced Contrastive Learning [23.817867981093382]
一般的な年齢特徴抽出は、年齢に関連する顔分析タスクに不可欠である。我々は,異なるデータセットやシナリオ間のドメインギャップを最小限に抑えるために,秩序強化コントラスト学習(OrdCon)を提案する。提案手法は,各種ベンチマークデータセットの最先端手法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2025-01-03T11:23:52Z)
Diffusion Soup: Model Merging for Text-to-Image Diffusion Models [90.01635703779183]
シャードデータに基づいてトレーニングされた拡散モデルの重みを平均化する,テキスト・ツー・イメージ・ジェネレーションの複合化手法であるDiffusion Soupを提案する。提案手法は,構築により,追加記憶や推論コストを伴わずに,無学習の連続学習とアンラーニングを可能にする。
論文参考訳（メタデータ） (2024-06-12T17:16:16Z)
Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering [27.495469888054032]
画像偽造検出は、画像内の偽造領域を検出し、発見することを目的としている。既存の偽造検出アルゴリズムは、画素を偽造または偽造に分類するために分類問題を定式化している。本稿では,ソフトコントラスト学習と教師なしクラスタリングに基づく,新しい,シンプルかつ極めて効果的なパラダイムであるFOCAL法を提案する。
論文参考訳（メタデータ） (2023-08-18T05:05:30Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。 UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文参考訳（メタデータ） (2023-04-08T10:47:41Z)
(Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文参考訳（メタデータ） (2022-06-21T17:27:27Z)
Adaptive Mean-Residue Loss for Robust Facial Age Estimation [7.667560350473354]
本稿では,分布学習による顔年齢推定のための損失関数を提案する。 FG-NETとCLAP2016のデータセットでの実験結果により、提案された損失の有効性が検証された。
論文参考訳（メタデータ） (2022-03-31T16:28:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。