Fugu-MT 論文翻訳(概要): Wake Vision: A Tailored Dataset and Benchmark Suite for TinyML Computer Vision Applications

論文の概要: Wake Vision: A Tailored Dataset and Benchmark Suite for TinyML Computer Vision Applications

arxiv url: http://arxiv.org/abs/2405.00892v4
Date: Mon, 09 Dec 2024 17:35:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.090734
Title: Wake Vision: A Tailored Dataset and Benchmark Suite for TinyML Computer Vision Applications
Title（参考訳）: Wake Vision: TinyMLコンピュータビジョンアプリケーションのためのタレントデータセットとベンチマークスイート
Authors: Colby Banbury, Emil Njor, Andrea Mattia Garavagno, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi,
Abstract要約: We present Wake Vision, a large-scale dataset for person detection that includes over 600 million quality-filtered images。 We provide twovariants: Wake Vision (Large) and Wake Vision (Quality) which leverageing the large variant for pretraining and knowledge distillation。手動でラベル付けされた検証とテストセットは、以前の標準と比べてエラー率を7.8%から2.2%に下げる。
参考スコア（独自算出の注目度）: 6.635594598495127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tiny machine learning (TinyML) for low-power devices lacks robust datasets for development. We present Wake Vision, a large-scale dataset for person detection that contains over 6 million quality-filtered images. We provide two variants: Wake Vision (Large) and Wake Vision (Quality), leveraging the large variant for pretraining and knowledge distillation, while the higher-quality labels drive final model performance. The manually labeled validation and test sets reduce error rates from 7.8% to 2.2% compared to previous standards. In addition, we introduce five detailed benchmark sets to evaluate model performance in real-world scenarios, including varying lighting, camera distances, and demographic characteristics. Training with Wake Vision improves accuracy by 1.93% over existing datasets, demonstrating the importance of dataset quality for low-capacity models and dataset size for high-capacity models. The dataset, benchmarks, code, and models are available under the CC-BY 4.0 license, maintained by the Edge AI Foundation.
Abstract（参考訳）: 低消費電力デバイス向けのティニー機械学習(TinyML)は、開発のための堅牢なデータセットを欠いている。 We present Wake Vision, a large-scale dataset for person detection that includes over 600 million quality-filtered images。 We provide twovariants: Wake Vision (Large) and Wake Vision (Quality) which leverageing the large variant for pretraining and knowledge distillation, while the high-quality labels drive final model performance。手動でラベル付けされた検証とテストセットは、以前の標準と比べてエラー率を7.8%から2.2%に下げる。さらに,照明,カメラ距離,人口統計特性など,実世界のシナリオにおけるモデル性能を評価するための詳細なベンチマークセットを5つ導入した。 Wake Visionを使用したトレーニングでは、既存のデータセットよりも1.93%精度が向上し、低容量モデルのデータセット品質と高容量モデルのデータセットサイズの重要性が示されている。データセット、ベンチマーク、コード、モデルは、Edge AI Foundationが管理するCC-BY 4.0ライセンスの下で利用できる。

関連論文リスト

COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文参考訳（メタデータ） (2025-04-02T03:12:38Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Fast Data Aware Neural Architecture Search via Supernet Accelerated Evaluation [0.43550340493919387]
TinyML(TinyML)は、医療、環境モニタリング、産業保守といった分野に革命をもたらすことを約束している。 TinyMLデプロイメントの成功に必要な複雑な最適化は、広く採用されていることを妨げ続けている。本稿では,最新のデータ認識ニューラルアーキテクチャ検索手法を提案し,新しいTinyML VisionWakeデータセットの有効性を実証する。
論文参考訳（メタデータ） (2025-02-18T09:51:03Z)
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。 Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文参考訳（メタデータ） (2025-02-14T05:36:32Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
TinySV: Speaker Verification in TinyML with On-device Learning [2.356162747014486]
本稿では,提案した TextitTiny Speaker Verification (TinySV) などのタスクで使用可能な,新しいタイプの適応型TinyMLソリューションを提案する。提案したTinySVソリューションは、キーワードスポッティングと適応話者検証モジュールで構成される2層階層のTinyMLソリューションに依存している。我々は,提案したTinySVソリューションの有効性と有効性を評価し,提案したソリューションを実世界のIoTデバイス上でテストした。
論文参考訳（メタデータ） (2024-06-03T17:27:40Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
On-device Online Learning and Semantic Management of TinyML Systems [8.183732025472766]
本研究の目的は,単一TinyMLモデルのプロトタイピングと信頼性の高いTinyMLシステムの開発のギャップを埋めることである。我々は,制約のあるデバイス上でのトレーニングを可能にするオンライン学習を提案し,最新のフィールド条件に局所モデルを適用する。モデルとデバイスを大規模に管理するためのセマンティックマネジメントを提案する。
論文参考訳（メタデータ） (2024-05-13T10:03:34Z)
TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文参考訳（メタデータ） (2024-04-19T11:38:08Z)
Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset [10.645578300818498]
本稿では,9202人の視線記録のデータセットを用いて,視線駆動型認証性能のベースラインを確立する。我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。
論文参考訳（メタデータ） (2024-04-17T23:33:34Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。 SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文参考訳（メタデータ） (2023-12-15T04:11:34Z)
Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文参考訳（メタデータ） (2023-12-08T05:24:21Z)
Automated Multimodal Data Annotation via Calibration With Indoor Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-12-06T16:54:24Z)
Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文参考訳（メタデータ） (2023-11-07T14:14:32Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
TinyReptile: TinyML with Federated Meta-Learning [9.618821589196624]
メタラーニングとオンラインラーニングにインスパイアされた,シンプルだが効率的なアルゴリズムであるTinyReptileを提案する。 Raspberry Pi 4とCortex-M4 MCUで256KBのRAMでTinyReptileをデモした。
論文参考訳（メタデータ） (2023-04-11T13:11:10Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文参考訳（メタデータ） (2021-01-07T18:55:21Z)
Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文参考訳（メタデータ） (2020-12-03T02:07:43Z)
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。 4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文参考訳（メタデータ） (2020-10-24T08:17:54Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。