論文の概要: Towards Vision Mixture of Experts for Wildlife Monitoring on the Edge
- arxiv url: http://arxiv.org/abs/2411.07834v1
- Date: Tue, 12 Nov 2024 14:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:12.296763
- Title: Towards Vision Mixture of Experts for Wildlife Monitoring on the Edge
- Title(参考訳): 端面における野生生物モニタリング専門家の視線混合に向けて
- Authors: Emmanuel Azuh Mensah, Anderson Lee, Haoran Zhang, Yitong Shan, Kurtis Heimerl,
- Abstract要約: TinyMLのコミュニティは、通信帯域幅と過剰なクラウドストレージコストを節約するための方法を積極的に提案している。
モバイル・ビジョン・トランスフォーマーにおいて、パッチごとの条件付き計算を初めて行う。
The model on Cornell Sap Sucker Woods 60。
- 参考スコア(独自算出の注目度): 13.112893692624768
- License:
- Abstract: The explosion of IoT sensors in industrial, consumer and remote sensing use cases has come with unprecedented demand for computing infrastructure to transmit and to analyze petabytes of data. Concurrently, the world is slowly shifting its focus towards more sustainable computing. For these reasons, there has been a recent effort to reduce the footprint of related computing infrastructure, especially by deep learning algorithms, for advanced insight generation. The `TinyML' community is actively proposing methods to save communication bandwidth and excessive cloud storage costs while reducing algorithm inference latency and promoting data privacy. Such proposed approaches should ideally process multiple types of data, including time series, audio, satellite images, and video, near the network edge as multiple data streams has been shown to improve the discriminative ability of learning algorithms, especially for generating fine grained results. Incidentally, there has been recent work on data driven conditional computation of subnetworks that has shown real progress in using a single model to share parameters among very different types of inputs such as images and text, reducing the computation requirement of multi-tower multimodal networks. Inspired by such line of work, we explore similar per patch conditional computation for the first time for mobile vision transformers (vision only case), that will eventually be used for single-tower multimodal edge models. We evaluate the model on Cornell Sap Sucker Woods 60, a fine grained bird species discrimination dataset. Our initial experiments uses $4X$ fewer parameters compared to MobileViTV2-1.0 with a $1$% accuracy drop on the iNaturalist '21 birds test data provided as part of the SSW60 dataset.
- Abstract(参考訳): 産業、消費者、リモートセンシングのユースケースにおけるIoTセンサーの爆発は、コンピューティングインフラストラクチャーがペタバイト単位のデータを送信し分析することに対する前例のない需要をもたらしている。
同時に、世界は徐々に、より持続可能なコンピューティングに焦点を移している。
これらの理由から、近年、高度な洞察生成のために、特にディープラーニングアルゴリズムによって、関連するコンピューティングインフラストラクチャのフットプリントを削減しようとしている。
TinyML’コミュニティは、アルゴリズムの推論遅延を減らし、データのプライバシを促進するとともに、通信帯域幅と過剰なクラウドストレージコストを削減する方法を積極的に提案している。
提案手法は, 時系列, 音声, 衛星画像, ビデオなどの複数のデータをネットワークエッジ付近で処理し, 学習アルゴリズムの識別能力の向上を図っている。
ちなみに、サブネットワークのデータ駆動条件計算に関する最近の研究は、画像やテキストなど、非常に異なるタイプの入力のパラメータを共有するために単一のモデルを使用することで、マルチトウワーマルチモーダルネットワークの計算要求を減らし、真の進歩を示している。
このような一連の作業にインスパイアされた我々は、モバイルビジョントランスフォーマー(ビジョンのみの場合)において、パッチごとの条件付き計算を初めて探求し、最終的にはシングルトワーマルチモーダルエッジモデルに使用される。
The model on Cornell Sap Sucker Woods 60。
最初の実験では、SSW60データセットの一部として提供されるiNaturalist '21 Bird testデータに対して、MobileViTV2-1.0と比較して4倍のパラメータが使用されています。
関連論文リスト
- Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Share Your Secrets for Privacy! Confidential Forecasting with Vertical Federated Learning [5.584904689846748]
製造業における主な課題は、データプライバシと、小さくノイズの多いデータセットへの過度な適合である。
本稿では、以下の重要な特徴を示す新しいフレームワークである「VFLによる秘かに共有された時系列予測」を提案する。
以上の結果から,STVの予測精度は集中型手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-05-31T12:27:38Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Radio Map Estimation -- An Open Dataset with Directive Transmitter
Antennas and Initial Experiments [49.61405888107356]
実世界の現実的な都市地図とオープンなデータソースからの航空画像とともに、シミュレーションされた経路損失無線マップのデータセットをリリースする。
モデルアーキテクチャ,入力特徴設計,航空画像からの無線マップの推定に関する実験を行った。
論文 参考訳(メタデータ) (2024-01-12T14:56:45Z) - WiFi-TCN: Temporal Convolution for Human Interaction Recognition based
on WiFi signal [4.0773490083614075]
近年,Wi-Fiによる人間活動認識が注目されている。
Wi-FiベースのHARにまつわる課題は、シーンや被写体が変化するときのパフォーマンスが著しく低下することである。
本稿では,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:37:32Z) - Towards Efficient Scheduling of Federated Mobile Devices under
Computational and Statistical Heterogeneity [16.069182241512266]
本稿では,モバイルデバイス上での分散学習の実装について検討する。
チューニングノブとしてデータを使用し、異なるワークロードをスケジュールする2つの効率的な時間アルゴリズムを提案する。
一般的なベンチマークと比較すると,提案アルゴリズムはCIFAR10で2-100倍の高速化,2-7%の精度向上,収束率を100%以上達成している。
論文 参考訳(メタデータ) (2020-05-25T18:21:51Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。