論文の概要: TinyM$^2$Net: A Flexible System Algorithm Co-designed Multimodal
Learning Framework for Tiny Devices
- arxiv url: http://arxiv.org/abs/2202.04303v1
- Date: Wed, 9 Feb 2022 06:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 23:00:06.783640
- Title: TinyM$^2$Net: A Flexible System Algorithm Co-designed Multimodal
Learning Framework for Tiny Devices
- Title(参考訳): tinym$^2$net: 小型デバイスのためのフレキシブルシステムアルゴリズム共設計マルチモーダル学習フレームワーク
- Authors: Hasib-Al Rashid, Pretom Roy Ovi, Aryya Gangopadhyay, Tinoosh Mohsenin
- Abstract要約: 本稿では,リソース制約された小型デバイスを対象としたマルチモーダル学習フレームワークTinyM$2$Netを提案する。
小型デバイスに実装するためにモデルを圧縮するために,ネットワークアーキテクチャの大幅な最適化と混合精度の量子化を行った。
最も圧縮されたTinyM$2$Netは、88.4%のCOVID-19検出精度と96.8%の戦場物体検出精度を達成する。
- 参考スコア(独自算出の注目度): 0.9978961706999836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of Artificial Intelligence (AI), new attention has been
given to implement AI algorithms on resource constrained tiny devices to expand
the application domain of IoT. Multimodal Learning has recently become very
popular with the classification task due to its impressive performance for both
image and audio event classification. This paper presents TinyM$^2$Net -- a
flexible system algorithm co-designed multimodal learning framework for
resource constrained tiny devices. The framework was designed to be evaluated
on two different case-studies: COVID-19 detection from multimodal audio
recordings and battle field object detection from multimodal images and audios.
In order to compress the model to implement on tiny devices, substantial
network architecture optimization and mixed precision quantization were
performed (mixed 8-bit and 4-bit). TinyM$^2$Net shows that even a tiny
multimodal learning model can improve the classification performance than that
of any unimodal frameworks. The most compressed TinyM$^2$Net achieves 88.4%
COVID-19 detection accuracy (14.5% improvement from unimodal base model) and
96.8\% battle field object detection accuracy (3.9% improvement from unimodal
base model). Finally, we test our TinyM$^2$Net models on a Raspberry Pi 4 to
see how they perform when deployed to a resource constrained tiny device.
- Abstract(参考訳): AI(Artificial Intelligence)の出現により、リソースに制約のある小さなデバイスにAIアルゴリズムを実装することで、IoTのアプリケーションドメインを拡大する新たな注目を集めている。
マルチモーダル学習は,画像と音声の両方のイベント分類における印象的な性能のため,最近,その分類タスクで非常に人気がある。
本稿では,資源制約型小型デバイスのためのフレキシブルシステムアルゴリズムによるマルチモーダル学習フレームワークであるtinym$^2$netを提案する。
このフレームワークは、マルチモーダルオーディオ記録からのcovid-19検出と、マルチモーダルイメージとオーディオからのバトルフィールドオブジェクト検出の2つの異なるケーススタディで評価されるように設計されている。
モデルを圧縮して小さなデバイスに実装するために、ネットワークアーキテクチャの最適化と混合精度の量子化を行った(8ビットと4ビットの混合)。
TinyM$^2$Netは、小さなマルチモーダル学習モデルでさえ、任意の非モーダルフレームワークよりも分類性能を向上させることができることを示している。
最も圧縮されたTinyM$^2$Net は 88.4% の COVID-19 検出精度 (ユニモーダルベースモデルより14.5% 改善) と96.8\% の戦場物体検出精度 (3.9% 改善)を達成している。
最後に、我々はraspberry pi 4上で小さな^2$netモデルをテストし、リソースが制約された小さなデバイスにデプロイされたときにどのように機能するかを確認します。
関連論文リスト
- A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption [0.4345992906143838]
Tiny Machine Learning (TinyML) の文脈における漸進学習のための新しいアルゴリズムを提案する。
低性能でエネルギー効率のよい組み込みデバイスに最適化されている。
提案アルゴリズムは,組込みデバイス上でのTinyMLインクリメンタル学習に有望なアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-09-11T09:02:33Z) - TinySV: Speaker Verification in TinyML with On-device Learning [2.356162747014486]
本稿では,提案した TextitTiny Speaker Verification (TinySV) などのタスクで使用可能な,新しいタイプの適応型TinyMLソリューションを提案する。
提案したTinySVソリューションは、キーワードスポッティングと適応話者検証モジュールで構成される2層階層のTinyMLソリューションに依存している。
我々は,提案したTinySVソリューションの有効性と有効性を評価し,提案したソリューションを実世界のIoTデバイス上でテストした。
論文 参考訳(メタデータ) (2024-06-03T17:27:40Z) - TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices [0.680407997976263]
本稿では,視覚質問応答タスクのための新しいマルチモーダルディープニューラルネットワークTinyVQAを提案する。
このモデルは、災害後の被害評価に使用されるFloodNetデータセットで評価された。
TinyVQAモデルは56ミリ秒の低レイテンシを実現し、小型ドローンに搭載されている間に693ミリワットの電力を消費する。
論文 参考訳(メタデータ) (2024-04-04T16:38:49Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - TinyReptile: TinyML with Federated Meta-Learning [9.618821589196624]
メタラーニングとオンラインラーニングにインスパイアされた,シンプルだが効率的なアルゴリズムであるTinyReptileを提案する。
Raspberry Pi 4とCortex-M4 MCUで256KBのRAMでTinyReptileをデモした。
論文 参考訳(メタデータ) (2023-04-11T13:11:10Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。