論文の概要: TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2404.03574v1
- Date: Thu, 4 Apr 2024 16:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:12:26.330776
- Title: TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices
- Title(参考訳): TinyVQA:資源制約デバイスに対する視覚質問応答のための小型マルチモーダルディープニューラルネットワーク
- Authors: Hasib-Al Rashid, Argho Sarkar, Aryya Gangopadhyay, Maryam Rahnemoonfar, Tinoosh Mohsenin,
- Abstract要約: 本稿では,視覚質問応答タスクのための新しいマルチモーダルディープニューラルネットワークTinyVQAを提案する。
このモデルは、災害後の被害評価に使用されるFloodNetデータセットで評価された。
TinyVQAモデルは56ミリ秒の低レイテンシを実現し、小型ドローンに搭載されている間に693ミリワットの電力を消費する。
- 参考スコア(独自算出の注目度): 0.680407997976263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional machine learning models often require powerful hardware, making them unsuitable for deployment on resource-limited devices. Tiny Machine Learning (tinyML) has emerged as a promising approach for running machine learning models on these devices, but integrating multiple data modalities into tinyML models still remains a challenge due to increased complexity, latency, and power consumption. This paper proposes TinyVQA, a novel multimodal deep neural network for visual question answering tasks that can be deployed on resource-constrained tinyML hardware. TinyVQA leverages a supervised attention-based model to learn how to answer questions about images using both vision and language modalities. Distilled knowledge from the supervised attention-based VQA model trains the memory aware compact TinyVQA model and low bit-width quantization technique is employed to further compress the model for deployment on tinyML devices. The TinyVQA model was evaluated on the FloodNet dataset, which is used for post-disaster damage assessment. The compact model achieved an accuracy of 79.5%, demonstrating the effectiveness of TinyVQA for real-world applications. Additionally, the model was deployed on a Crazyflie 2.0 drone, equipped with an AI deck and GAP8 microprocessor. The TinyVQA model achieved low latencies of 56 ms and consumes 693 mW power while deployed on the tiny drone, showcasing its suitability for resource-constrained embedded systems.
- Abstract(参考訳): 従来の機械学習モデルは、しばしば強力なハードウェアを必要とするため、リソース制限されたデバイスへのデプロイには適さない。
Tiny Machine Learning(tinyML)は、これらのデバイス上で機械学習モデルを実行するための有望なアプローチとして登場したが、複雑さ、レイテンシ、消費電力の増加により、複数のデータモダリティを小さなMLモデルに統合することは依然として課題である。
本稿では、リソース制約の小さなMLハードウェアにデプロイ可能な視覚質問応答タスクのための、新しいマルチモーダルディープニューラルネットワークTinyVQAを提案する。
TinyVQAは、教師付きアテンションベースのモデルを利用して、視覚と言語の両方のモダリティを使用して、画像に関する質問に答える方法を学ぶ。
教師付き注意に基づくVQAモデルからの希薄な知識は、メモリを意識したコンパクトTinyVQAモデルを訓練し、低ビット幅量子化技術を用いて、小型MLデバイスに展開するためのモデルをさらに圧縮する。
The TinyVQA model were evaluate on the FloodNet dataset, which is used for post-disaster damage Assessment。
小型モデルは79.5%の精度を達成し、現実の応用にTinyVQAの有効性を示した。
さらにこのモデルは、AIデッキとGAP8マイクロプロセッサを備えたCrzyflie 2.0ドローンに配備された。
TinyVQAモデルは56ミリ秒の低レイテンシを実現し、小型ドローンに配備されている間は693ミリワットの電力を消費する。
関連論文リスト
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - Tiny Machine Learning: Progress and Futures [24.76599651516217]
Tiny Machine Learning (TinyML)は、機械学習の新しいフロンティアである。
TinyMLはハードウェアの制約のために難しい。
まず、TinyMLの定義、課題、応用について論じる。
論文 参考訳(メタデータ) (2024-03-28T00:34:56Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - TinyReptile: TinyML with Federated Meta-Learning [9.618821589196624]
メタラーニングとオンラインラーニングにインスパイアされた,シンプルだが効率的なアルゴリズムであるTinyReptileを提案する。
Raspberry Pi 4とCortex-M4 MCUで256KBのRAMでTinyReptileをデモした。
論文 参考訳(メタデータ) (2023-04-11T13:11:10Z) - An Ultra-low Power TinyML System for Real-time Visual Processing at Edge [7.327401565768275]
このブリーフィングは、様々な視覚タスクのための高効率CNNモデルを構築するために、非常に小さなバックボーンを提示する。
特別に設計されたニューラルコプロセッサ(NCP)は、超低消費電力のTinyMLシステムを構築するためにMCUと相互接続される。
我々のモデル, NCP, 命令セットに基づくTinyMLシステムは, 精度が高く, 記録的な160mW超低出力を実現している。
論文 参考訳(メタデータ) (2022-07-11T06:56:27Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z) - MicroNets: Neural Network Architectures for Deploying TinyML
Applications on Commodity Microcontrollers [18.662026553041937]
リソース制約付きマイクロコントローラ(MCU)による機械学習は、IoT(Internet of Things)のアプリケーション領域を大幅に拡大することを約束する
TinyMLは、ディープニューラルネットワーク推論が大きな計算とメモリの予算を必要とするため、深刻な技術的課題を提示している。
ニューラルネットワークサーチ(NAS)は、厳密なMCUメモリ、レイテンシ、エネルギー制約を満たす正確なMLモデルの設計を支援する。
論文 参考訳(メタデータ) (2020-10-21T19:39:39Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。