論文の概要: Face Density as a Proxy for Data Complexity: Quantifying the Hardness of Instance Count
- arxiv url: http://arxiv.org/abs/2604.09689v1
- Date: Mon, 06 Apr 2026 10:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.59417
- Title: Face Density as a Proxy for Data Complexity: Quantifying the Hardness of Instance Count
- Title(参考訳): データ複雑性のプロキシとしての顔密度:インスタンス数の硬さの定量化
- Authors: Abolfazl Mohammadi-Seif, Ricardo Baeza-Yates,
- Abstract要約: データ複雑性の主要な要因として,インスタンス密度(顔数によって測定される)の影響を定量化する。
WIDER FACEとOpen Imagesデータセットの制御された実験により、モデル性能は顔数の増加とともに単調に低下することが明らかになった。
- 参考スコア(独自算出の注目度): 10.82789277277678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning progress has historically prioritized model-centric innovations, yet achievable performance is frequently capped by the intrinsic complexity of the data itself. In this work, we isolate and quantify the impact of instance density (measured by face count) as a primary driver of data complexity. Rather than simply observing that ``crowded scenes are harder,'' we rigorously control for class imbalance to measure the precise degradation caused by density alone. Controlled experiments on the WIDER FACE and Open Images datasets, restricted to exactly 1 to 18 faces per image with perfectly balanced sampling, reveal that model performance degrades monotonically with increasing face count. This trend holds across classification, regression, and detection paradigms, even when models are fully exposed to the entire density range. Furthermore, we demonstrate that models trained on low-density regimes fail to generalize to higher densities, exhibiting a systematic under-counting bias, with error rates increasing by up to 4.6x, which suggests density acts as a domain shift. These findings establish instance density as an intrinsic, quantifiable dimension of data hardness and motivate specific interventions in curriculum learning and density-stratified evaluation.
- Abstract(参考訳): 機械学習の進歩は、歴史的にモデル中心のイノベーションを優先してきたが、達成可能なパフォーマンスは、データ自体の本質的な複雑さによって達成されることが多い。
本研究では,データ複雑性の主要な要因として,インスタンス密度(顔数によって測定される)の影響を分離し,定量化する。
を単に観察するのではなく、クラス不均衡を厳格に制御し、密度のみによって引き起こされる正確な劣化を計測する。
WIDER FACEとOpen Imagesデータセットの制御された実験は、完全にバランスの取れたサンプリングによって、1画像あたり1から18顔に制限され、モデル性能が顔数の増加とともに単調に低下することを明らかにする。
この傾向は、モデルが全密度範囲に完全に露出している場合でも、分類、回帰、検出のパラダイムを越えて保持される。
さらに、低密度体制で訓練されたモデルでは、より高い密度に一般化できず、体系的な低カウントバイアスを示し、エラー率は最大4.6倍に増加し、密度がドメインシフトとして振る舞うことを示唆している。
これらの知見は,データ硬さの本質的,定量的な次元としてインスタンス密度を確立し,カリキュラム学習と密度階層化評価における具体的な介入を動機づけるものである。
関連論文リスト
- Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Kernel Density Steering: Inference-Time Scaling via Mode Seeking for Image Restoration [28.00788198968591]
カーネル密度ステアリング(KDS)は、明示的な局所モード探索を通じて、堅牢で高忠実な出力を促進する新しい推論時フレームワークである。
KDSは、拡散サンプルの$N$粒子アンサンブルを使用し、それらの集合出力からパッチワイドのカーネル密度推定勾配を計算する。
この集団的な局所的なモード探索機構は「収集知恵」として機能し、刺激的なモードからアーティファクトへと引き離される。
論文 参考訳(メタデータ) (2025-07-08T02:33:44Z) - Anomaly Detection with Variance Stabilized Density Estimation [49.46356430493534]
本稿では, 観測試料の確率を最大化するための分散安定化密度推定問題を提案する。
信頼性の高い異常検知器を得るために,分散安定化分布を学習するための自己回帰モデルのスペクトルアンサンブルを導入する。
我々は52のデータセットで広範なベンチマークを行い、我々の手法が最先端の結果につながることを示した。
論文 参考訳(メタデータ) (2023-06-01T11:52:58Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Marginalizable Density Models [14.50261153230204]
本稿では,変数の任意の部分集合の確率,限界,条件に対するクローズドフォーム表現を提供する,新しいディープネットワークアーキテクチャを提案する。
このモデルはまた、変数数に時間複雑性の対数依存しか依存しない並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2021-06-08T23:54:48Z) - Training Deep Normalizing Flow Models in Highly Incomplete Data
Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。
提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文 参考訳(メタデータ) (2021-04-03T20:57:57Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。