論文の概要: Digital Scale: Open-Source On-Device BMI Estimation from Smartphone Camera Images Trained on a Large-Scale Real-World Dataset
- arxiv url: http://arxiv.org/abs/2508.20534v1
- Date: Thu, 28 Aug 2025 08:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.218794
- Title: Digital Scale: Open-Source On-Device BMI Estimation from Smartphone Camera Images Trained on a Large-Scale Real-World Dataset
- Title(参考訳): デジタルスケール:大規模実世界データを用いたスマートフォンカメラ画像からのオープンソースオンデバイスBMI推定
- Authors: Frederik Rajiv Manichand, Robin Deuber, Robert Jakob, Steve Swerling, Jamie Rosen, Elgar Fleisch, Patrick Langer,
- Abstract要約: 既存のコンピュータビジョンアプローチは、最大14,500の画像のデータセットに限られている。
そこで我々は,WayBEDデータセットに基づいて学習した深層学習に基づくBMI推定手法を提案する。
CLAIDフレームワークを使用して,画像フィルタリングやBMI推定を含む全パイプラインをAndroidデバイスに展開する。
- 参考スコア(独自算出の注目度): 3.9545263841567686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating Body Mass Index (BMI) from camera images with machine learning models enables rapid weight assessment when traditional methods are unavailable or impractical, such as in telehealth or emergency scenarios. Existing computer vision approaches have been limited to datasets of up to 14,500 images. In this study, we present a deep learning-based BMI estimation method trained on our WayBED dataset, a large proprietary collection of 84,963 smartphone images from 25,353 individuals. We introduce an automatic filtering method that uses posture clustering and person detection to curate the dataset by removing low-quality images, such as those with atypical postures or incomplete views. This process retained 71,322 high-quality images suitable for training. We achieve a Mean Absolute Percentage Error (MAPE) of 7.9% on our hold-out test set (WayBED data) using full-body images, the lowest value in the published literature to the best of our knowledge. Further, we achieve a MAPE of 13% on the completely unseen~(during training) VisualBodyToBMI dataset, comparable with state-of-the-art approaches trained on it, demonstrating robust generalization. Lastly, we fine-tune our model on VisualBodyToBMI and achieve a MAPE of 8.56%, the lowest reported value on this dataset so far. We deploy the full pipeline, including image filtering and BMI estimation, on Android devices using the CLAID framework. We release our complete code for model training, filtering, and the CLAID package for mobile deployment as open-source contributions.
- Abstract(参考訳): カメラ画像から機械学習モデルを用いてBMI(Body Mass Index)を推定することで、遠隔医療や緊急のシナリオなど、従来の方法が利用できない場合や非現実的な場合の迅速な重量評価が可能になる。
既存のコンピュータビジョンアプローチは、最大14,500の画像のデータセットに限られている。
本研究では,25,353人のスマートフォン画像84,963枚からなる大規模プロプライエタリコレクションであるWayBEDデータセットに基づいて,ディープラーニングに基づくBMI推定手法を提案する。
姿勢クラスタリングと人検出を用いた自動フィルタリング手法を導入し,非定型姿勢や不完全視などの低品質画像を取り除き,データセットをキュレートする。
このプロセスは訓練に適した71,322枚の高品質な画像を保持していた。
また,本研究では,全文画像を用いたホールドアウトテストセット(WayBEDデータ)における平均絶対パーセンテージ誤差(MAPE)を7.9%向上させる。
さらに,VisualBodyToBMIデータセットは,その上でトレーニングされた最先端のアプローチに匹敵し,堅牢な一般化を実証する。
最後に、VisualBodyToBMIでモデルを微調整し、8.56%のMAPEを達成する。
CLAIDフレームワークを使用して,画像フィルタリングやBMI推定を含む全パイプラインをAndroidデバイスに展開する。
モデルトレーニング、フィルタリング、モバイルデプロイメントのためのCLAIDパッケージをオープンソースコントリビューションとしてリリースしています。
関連論文リスト
- Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - UGoDIT: Unsupervised Group Deep Image Prior Via Transferable Weights [10.447347462729462]
UGoDITは、訓練中にごく少数のサブサンプル測定ベクトルMしか利用できない低データ方式のために設計されている。
本手法は,共有エンコーダとMアンタングルデコーダを最適化することにより,転送可能な重みの集合を学習する。
医療用(マルチコイルMRI)と自然用(超分解能・非線形劣化)の画像回復タスクの両面でUGoDITを評価した。
論文 参考訳(メタデータ) (2025-05-16T22:05:28Z) - Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis [0.6524460254566905]
本研究では,人間の姿勢の分類におけるコントラスト言語-画像事前訓練(CLIP)の有効性を評価することを目的とする。
82のクラスを持つ15,301の画像(実画像と合成画像)に転写学習を適用することで、有望な結果が得られた。
3826イメージでテストされた微調整のCLIPモデルは、85%以上の精度を実現している。
論文 参考訳(メタデータ) (2025-01-13T11:20:44Z) - Celeb-FBI: A Benchmark Dataset on Human Full Body Images and Age, Gender, Height and Weight Estimation using Deep Learning Approach [0.0]
「Celeb-FBI」データセットには、身長、年齢、体重、性別の詳細な情報とともに、7,211人の個人像が含まれている。
我々はCNN,50層ResNet,16層VGGという3つの深層学習手法を用いて,人間のフルボディ画像から身長,体重,年齢,性別を推定する。
結果から、ResNet-50の精度は79.18%、性別は95.43%、身長は85.60%、体重は81.91%であった。
論文 参考訳(メタデータ) (2024-07-03T20:16:47Z) - PatchBMI-Net: Lightweight Facial Patch-based Ensemble for BMI Prediction [3.9440964696313485]
健康度モニタリングのための自己診断型顔画像に基づくBMI予測手法を提案する。
これらの手法は、主に畳み込みニューラルネットワーク(CNN)ベースの回帰ベースライン(VGG19、ResNet50、Efficient-NetB0)を使用している。
本稿では,BMI予測のための軽量な顔パッチベースのアンサンブル(PatchBMI-Net)を開発し,スマートフォンによる展開と重量モニタリングを容易にすることを目的とする。
論文 参考訳(メタデータ) (2023-11-29T21:39:24Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - ALiSNet: Accurate and Lightweight Human Segmentation Network for Fashion
E-Commerce [57.876602177247534]
スマートフォンは、ユーザーが自分の身体の画像をキャプチャする便利な手段を提供する。
我々は、PointRendでSemantic FPNを単純化することで、新しいセグメンテーションモデルを作成する。
我々は、このモデルを、私たちのアプリケーションに関連するポーズの制限されたセットで、高品質な人間のデータセットに微調整する。
論文 参考訳(メタデータ) (2023-04-15T11:06:32Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。