Fugu-MT 論文翻訳(概要): Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection

論文の概要: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection

arxiv url: http://arxiv.org/abs/2405.00892v1
Date: Wed, 1 May 2024 22:33:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 18:23:47.338245
Title: Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection
Title（参考訳）: Wake Vision: TinyML人物検出のための大規模分散データセットとベンチマークスイート
Authors: Colby Banbury, Emil Njor, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi,
Abstract要約: 人検出に適した大規模で多様なデータセットであるWake Visionを紹介した。 Wake Visionは600万枚以上の画像で構成されている。トレーニングにWake Visionを使用すると、確立されたベンチマークに比べて2.41%の精度が向上する。
参考スコア（独自算出の注目度）: 6.885131990923132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning applications on extremely low-power devices, commonly referred to as tiny machine learning (TinyML), promises a smarter and more connected world. However, the advancement of current TinyML research is hindered by the limited size and quality of pertinent datasets. To address this challenge, we introduce Wake Vision, a large-scale, diverse dataset tailored for person detection -- the canonical task for TinyML visual sensing. Wake Vision comprises over 6 million images, which is a hundredfold increase compared to the previous standard, and has undergone thorough quality filtering. Using Wake Vision for training results in a 2.41\% increase in accuracy compared to the established benchmark. Alongside the dataset, we provide a collection of five detailed benchmark sets that assess model performance on specific segments of the test data, such as varying lighting conditions, distances from the camera, and demographic characteristics of subjects. These novel fine-grained benchmarks facilitate the evaluation of model quality in challenging real-world scenarios that are often ignored when focusing solely on overall accuracy. Through an evaluation of a MobileNetV2 TinyML model on the benchmarks, we show that the input resolution plays a more crucial role than the model width in detecting distant subjects and that the impact of quantization on model robustness is minimal, thanks to the dataset quality. These findings underscore the importance of a detailed evaluation to identify essential factors for model development. The dataset, benchmark suite, code, and models are publicly available under the CC-BY 4.0 license, enabling their use for commercial use cases.
Abstract（参考訳）: 極低消費電力デバイス上の機械学習アプリケーション(一般的には小さな機械学習(TinyML))は、より賢くより接続された世界を約束する。しかし、現在のTinyML研究の進歩は、関連するデータセットのサイズと品質の制限によって妨げられている。この課題に対処するために、私たちは、人物検出に適した大規模で多様なデータセットである、TinyMLビジュアルセンシングの標準的なタスクであるWake Visionを紹介した。 Wake Visionは600万枚以上の画像で構成されており、これは以前の標準より100倍も大きくなり、徹底的な品質のフィルタリングが行われている。 Wake Visionをトレーニングに使用すると、既存のベンチマークと比べて2.41倍の精度が向上する。データセットの他に、様々な照明条件、カメラからの距離、被験者の人口統計特性など、テストデータの特定のセグメントでモデル性能を評価する5つの詳細なベンチマークセットのコレクションを提供する。これらの新しいきめ細かいベンチマークは、全体的な正確性だけに焦点を合わせると無視される現実のシナリオに挑戦する上で、モデル品質の評価を促進する。ベンチマークによるMobileNetV2 TinyMLモデルの評価により,入力解像度は遠距離対象の検出においてモデル幅よりも重要な役割を担い,また,データセットの品質により,モデルロバスト性に対する量子化の影響は最小限であることを示す。これらの結果は、モデル開発に不可欠な要素を特定するための詳細な評価の重要性を浮き彫りにした。データセット、ベンチマークスイート、コード、モデルはCC-BY 4.0ライセンスの下で公開されている。

関連論文リスト

COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文参考訳（メタデータ） (2025-04-02T03:12:38Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Fast Data Aware Neural Architecture Search via Supernet Accelerated Evaluation [0.43550340493919387]
TinyML(TinyML)は、医療、環境モニタリング、産業保守といった分野に革命をもたらすことを約束している。 TinyMLデプロイメントの成功に必要な複雑な最適化は、広く採用されていることを妨げ続けている。本稿では,最新のデータ認識ニューラルアーキテクチャ検索手法を提案し,新しいTinyML VisionWakeデータセットの有効性を実証する。
論文参考訳（メタデータ） (2025-02-18T09:51:03Z)
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。 Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文参考訳（メタデータ） (2025-02-14T05:36:32Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
TinySV: Speaker Verification in TinyML with On-device Learning [2.356162747014486]
本稿では,提案した TextitTiny Speaker Verification (TinySV) などのタスクで使用可能な,新しいタイプの適応型TinyMLソリューションを提案する。提案したTinySVソリューションは、キーワードスポッティングと適応話者検証モジュールで構成される2層階層のTinyMLソリューションに依存している。我々は,提案したTinySVソリューションの有効性と有効性を評価し,提案したソリューションを実世界のIoTデバイス上でテストした。
論文参考訳（メタデータ） (2024-06-03T17:27:40Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
On-device Online Learning and Semantic Management of TinyML Systems [8.183732025472766]
本研究の目的は,単一TinyMLモデルのプロトタイピングと信頼性の高いTinyMLシステムの開発のギャップを埋めることである。我々は,制約のあるデバイス上でのトレーニングを可能にするオンライン学習を提案し,最新のフィールド条件に局所モデルを適用する。モデルとデバイスを大規模に管理するためのセマンティックマネジメントを提案する。
論文参考訳（メタデータ） (2024-05-13T10:03:34Z)
TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文参考訳（メタデータ） (2024-04-19T11:38:08Z)
Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset [10.645578300818498]
本稿では,9202人の視線記録のデータセットを用いて,視線駆動型認証性能のベースラインを確立する。我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。
論文参考訳（メタデータ） (2024-04-17T23:33:34Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。 SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文参考訳（メタデータ） (2023-12-15T04:11:34Z)
Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文参考訳（メタデータ） (2023-12-08T05:24:21Z)
Automated Multimodal Data Annotation via Calibration With Indoor Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-12-06T16:54:24Z)
Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文参考訳（メタデータ） (2023-11-07T14:14:32Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
TinyReptile: TinyML with Federated Meta-Learning [9.618821589196624]
メタラーニングとオンラインラーニングにインスパイアされた,シンプルだが効率的なアルゴリズムであるTinyReptileを提案する。 Raspberry Pi 4とCortex-M4 MCUで256KBのRAMでTinyReptileをデモした。
論文参考訳（メタデータ） (2023-04-11T13:11:10Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文参考訳（メタデータ） (2021-01-07T18:55:21Z)
Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文参考訳（メタデータ） (2020-12-03T02:07:43Z)
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。 4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文参考訳（メタデータ） (2020-10-24T08:17:54Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。