論文の概要: MOSAIC: Mobile Segmentation via decoding Aggregated Information and
encoded Context
- arxiv url: http://arxiv.org/abs/2112.11623v1
- Date: Wed, 22 Dec 2021 02:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 14:39:42.658697
- Title: MOSAIC: Mobile Segmentation via decoding Aggregated Information and
encoded Context
- Title(参考訳): MOSAIC: Aggregated Information と Encoded Context によるモバイルセグメンテーション
- Authors: Weijun Wang, Andrew Howard
- Abstract要約: モバイルデバイス上でのセマンティックイメージセグメンテーションを効率的に正確に行うための次世代ニューラルネットワークアーキテクチャMOSAICを提案する。
MOSAICは、さまざまなモバイルプラットフォームにまたがる柔軟なデプロイメントのために、さまざまなモバイルハードウェアプラットフォームによって一般的にサポートされているニューラル操作を使用して設計されている。
効率的なマルチスケールコンテキストエンコーダと軽量ハイブリッドデコーダから構成される単純な非対称エンコーダ・デコーダ構造により、MOSAICは精度と計算コストのバランスを保ちながら、新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 2.6150066409672683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a next-generation neural network architecture, MOSAIC, for
efficient and accurate semantic image segmentation on mobile devices. MOSAIC is
designed using commonly supported neural operations by diverse mobile hardware
platforms for flexible deployment across various mobile platforms. With a
simple asymmetric encoder-decoder structure which consists of an efficient
multi-scale context encoder and a light-weight hybrid decoder to recover
spatial details from aggregated information, MOSAIC achieves new
state-of-the-art performance while balancing accuracy and computational cost.
Deployed on top of a tailored feature extraction backbone based on a searched
classification network, MOSAIC achieves a 5% absolute accuracy gain surpassing
the current industry standard MLPerf models and state-of-the-art architectures.
- Abstract(参考訳): モバイルデバイス上でのセマンティックイメージセグメンテーションを効率的に正確に行うための次世代ニューラルネットワークアーキテクチャMOSAICを提案する。
MOSAICは、さまざまなモバイルプラットフォームにまたがる柔軟なデプロイメントのために、さまざまなモバイルハードウェアプラットフォームによって一般的にサポートされているニューラル操作を使用して設計されている。
効率的なマルチスケールコンテキストエンコーダと軽量ハイブリッドデコーダから構成される単純な非対称エンコーダ構造により,MOSAICは精度と計算コストのバランスを保ちながら,新たな最先端性能を実現する。
検索された分類ネットワークに基づく機能抽出バックボーン上に展開されたMOSAICは、現在の業界標準のMLPerfモデルや最先端アーキテクチャよりも5%精度が向上する。
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z) - Lightweight Transformers for Human Activity Recognition on Mobile
Devices [0.5505634045241288]
モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、軽量なニューラルモデルで実現可能であることが示されている。
本稿では,HART(Human Activity Recognition Transformer)について述べる。
HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。
論文 参考訳(メタデータ) (2022-09-22T09:42:08Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。