論文の概要: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
- arxiv url: http://arxiv.org/abs/2405.00892v2
- Date: Thu, 6 Jun 2024 16:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:33:09.137526
- Title: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
- Title(参考訳): Wake Vision: TinyML人物検出のための大規模分散データセットとベンチマークスイート
- Authors: Colby Banbury, Emil Njor, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi,
- Abstract要約: 人検出に適した大規模で多様なデータセットであるWake Visionを紹介した。
Wake Visionは600万枚以上の画像で構成されている。
We provide two Wake Vision training set: Wake Vision (Large) and Wake Vision (Quality)。
- 参考スコア(独自算出の注目度): 6.885131990923132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tiny machine learning (TinyML), which enables machine learning applications on extremely low-power devices, suffers from limited size and quality of relevant datasets. To address this issue, we introduce Wake Vision, a large-scale, diverse dataset tailored for person detection, the canonical task for TinyML visual sensing. Wake Vision comprises over 6 million images, representing a hundredfold increase compared to the previous standard, and has undergone thorough quality filtering. We provide two Wake Vision training sets: Wake Vision (Large) and Wake Vision (Quality), a smaller set with higher-quality labels. Our results demonstrate that using the Wake Vision (Quality) training set produces more accurate models than the Wake Vision (Large) training set, strongly suggesting that label quality is more important than quantity in our setting. We find use for the large training set for pre-training and knowledge distillation. To minimize label errors that can obscure true model performance, we manually label the validation and test sets, improving the test set error rate from 7.8% in the prior standard to only 2.2%. In addition to the dataset, we provide a collection of five detailed benchmark sets to facilitate the evaluation of model quality in challenging real world scenarios that are often ignored when focusing solely on overall accuracy. These novel fine-grained benchmarks assess model performance on specific segments of the test data, such as varying lighting conditions, distances from the camera, and demographic characteristics of subjects. Our results demonstrate that using Wake Vision for training results in a 2.49% increase in accuracy compared to the established dataset. We also show the importance of dataset quality for low-capacity models and the value of dataset size for high-capacity models. wakevision.ai
- Abstract(参考訳): 極めて低消費電力デバイス上での機械学習アプリケーションを可能にするTinyMLは、関連するデータセットのサイズと品質の制限に悩まされている。
この問題に対処するために、TinyML視覚センシングの標準タスクである人物検出に適した、大規模で多様なデータセットであるWake Visionを紹介した。
Wake Visionは600万枚以上の画像で構成されており、以前の標準と比べて100倍の画質向上を示しており、徹底的な品質のフィルタリングが行われている。
Wake Vision (Large) と Wake Vision (Quality) の2つのトレーニングセットを提供しています。
その結果, Wake Vision (Quality) トレーニングセットを使用することで, Wake Vision (Large) トレーニングセットよりも正確なモデルが生成できることが示唆された。
プレトレーニングと知識蒸留のための大規模なトレーニングセットの活用が期待できる。
真のモデル性能を曖昧にできるラベルエラーを最小限に抑えるため、検証とテストセットを手動でラベル付けし、テストセットのエラー率を以前の標準の7.8%からわずか2.2%に改善した。
データセットに加えて、私たちは、全体的な正確性にのみ焦点をあてる際にしばしば無視される、現実のシナリオに挑戦する際のモデル品質の評価を容易にするために、5つの詳細なベンチマークセットのコレクションを提供します。
これらの新しいきめ細かいベンチマークは、様々な照明条件、カメラからの距離、被験者の人口統計特性など、テストデータの特定のセグメントでモデル性能を評価する。
その結果,Wake Visionをトレーニングに使用すると,既存のデータセットに比べて2.49%の精度が向上することがわかった。
また,低容量モデルにおけるデータセット品質の重要性と,高容量モデルにおけるデータセットサイズの価値も示す。
wakevision.ai
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset [10.645578300818498]
本稿では,9202人の視線記録のデータセットを用いて,視線駆動型認証性能のベースラインを確立する。
我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。
論文 参考訳(メタデータ) (2024-04-17T23:33:34Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。