論文の概要: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
- arxiv url: http://arxiv.org/abs/2405.00892v1
- Date: Wed, 1 May 2024 22:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:23:47.338245
- Title: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
- Title(参考訳): Wake Vision: TinyML人物検出のための大規模分散データセットとベンチマークスイート
- Authors: Colby Banbury, Emil Njor, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi,
- Abstract要約: 人検出に適した大規模で多様なデータセットであるWake Visionを紹介した。
Wake Visionは600万枚以上の画像で構成されている。
トレーニングにWake Visionを使用すると、確立されたベンチマークに比べて2.41%の精度が向上する。
- 参考スコア(独自算出の注目度): 6.885131990923132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning applications on extremely low-power devices, commonly referred to as tiny machine learning (TinyML), promises a smarter and more connected world. However, the advancement of current TinyML research is hindered by the limited size and quality of pertinent datasets. To address this challenge, we introduce Wake Vision, a large-scale, diverse dataset tailored for person detection -- the canonical task for TinyML visual sensing. Wake Vision comprises over 6 million images, which is a hundredfold increase compared to the previous standard, and has undergone thorough quality filtering. Using Wake Vision for training results in a 2.41\% increase in accuracy compared to the established benchmark. Alongside the dataset, we provide a collection of five detailed benchmark sets that assess model performance on specific segments of the test data, such as varying lighting conditions, distances from the camera, and demographic characteristics of subjects. These novel fine-grained benchmarks facilitate the evaluation of model quality in challenging real-world scenarios that are often ignored when focusing solely on overall accuracy. Through an evaluation of a MobileNetV2 TinyML model on the benchmarks, we show that the input resolution plays a more crucial role than the model width in detecting distant subjects and that the impact of quantization on model robustness is minimal, thanks to the dataset quality. These findings underscore the importance of a detailed evaluation to identify essential factors for model development. The dataset, benchmark suite, code, and models are publicly available under the CC-BY 4.0 license, enabling their use for commercial use cases.
- Abstract(参考訳): 極低消費電力デバイス上の機械学習アプリケーション(一般的には小さな機械学習(TinyML))は、より賢くより接続された世界を約束する。
しかし、現在のTinyML研究の進歩は、関連するデータセットのサイズと品質の制限によって妨げられている。
この課題に対処するために、私たちは、人物検出に適した大規模で多様なデータセットである、TinyMLビジュアルセンシングの標準的なタスクであるWake Visionを紹介した。
Wake Visionは600万枚以上の画像で構成されており、これは以前の標準より100倍も大きくなり、徹底的な品質のフィルタリングが行われている。
Wake Visionをトレーニングに使用すると、既存のベンチマークと比べて2.41倍の精度が向上する。
データセットの他に、様々な照明条件、カメラからの距離、被験者の人口統計特性など、テストデータの特定のセグメントでモデル性能を評価する5つの詳細なベンチマークセットのコレクションを提供する。
これらの新しいきめ細かいベンチマークは、全体的な正確性だけに焦点を合わせると無視される現実のシナリオに挑戦する上で、モデル品質の評価を促進する。
ベンチマークによるMobileNetV2 TinyMLモデルの評価により,入力解像度は遠距離対象の検出においてモデル幅よりも重要な役割を担い,また,データセットの品質により,モデルロバスト性に対する量子化の影響は最小限であることを示す。
これらの結果は、モデル開発に不可欠な要素を特定するための詳細な評価の重要性を浮き彫りにした。
データセット、ベンチマークスイート、コード、モデルはCC-BY 4.0ライセンスの下で公開されている。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset [10.645578300818498]
本稿では,9202人の視線記録のデータセットを用いて,視線駆動型認証性能のベースラインを確立する。
我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。
論文 参考訳(メタデータ) (2024-04-17T23:33:34Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。