論文の概要: A Simple Approach to Image Tilt Correction with Self-Attention MobileNet
for Smartphones
- arxiv url: http://arxiv.org/abs/2111.00398v1
- Date: Sun, 31 Oct 2021 03:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:08:47.678072
- Title: A Simple Approach to Image Tilt Correction with Self-Attention MobileNet
for Smartphones
- Title(参考訳): スマートフォン用セルフアテンション・モバイルネットを用いた画像傾き補正の簡易化
- Authors: Siddhant Garg, Debi Prasanna Mohanty, Siva Prasad Thota, Sukumar
Moharana
- Abstract要約: 本稿では,局所領域を処理する代わりに,画像特徴間の長距離依存性をモデル化できる自己注意型MobileNetを提案する。
また,画像傾き検出のための新しいトレーニングパイプラインを提案する。
我々は,モバイルネットV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出する技術について述べる。
- 参考スコア(独自算出の注目度): 4.989480853499916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The main contributions of our work are two-fold. First, we present a
Self-Attention MobileNet, called SA-MobileNet Network that can model long-range
dependencies between the image features instead of processing the local region
as done by standard convolutional kernels. SA-MobileNet contains self-attention
modules integrated with the inverted bottleneck blocks of the MobileNetV3 model
which results in modeling of both channel-wise attention and spatial attention
of the image features and at the same time introduce a novel self-attention
architecture for low-resource devices. Secondly, we propose a novel training
pipeline for the task of image tilt detection. We treat this problem in a
multi-label scenario where we predict multiple angles for a tilted input image
in a narrow interval of range 1-2 degrees, depending on the dataset used. This
process induces an implicit correlation between labels without any
computational overhead of the second or higher-order methods in multi-label
learning. With the combination of our novel approach and the architecture, we
present state-of-the-art results on detecting the image tilt angle on mobile
devices as compared to the MobileNetV3 model. Finally, we establish that
SA-MobileNet is more accurate than MobileNetV3 on SUN397, NYU-V1, and ADE20K
datasets by 6.42%, 10.51%, and 9.09% points respectively, and faster by at
least 4 milliseconds on Snapdragon 750 Octa-core.
- Abstract(参考訳): 私たちの仕事の主な貢献は2倍です。
まず,SA-MobileNetと呼ばれるセルフアテンション・モビリティ・ネットワークを提案し,画像特徴間の長距離依存性を標準の畳み込みカーネルで処理する代わりにモデル化する。
sa-mobilenet は mobilenetv3 モデルの逆ボトルネックブロックと統合されたセルフアテンションモジュールを含み、画像特徴のチャネル毎の注意と空間的注意の両方をモデル化すると同時に、低リソースデバイス向けの新しいセルフアテンションアーキテクチャも導入する。
次に,画像傾き検出のための新しい訓練パイプラインを提案する。
本研究では,入力画像の傾きが1~2度の範囲の狭い範囲で複数角度の予測を行うマルチラベルシナリオにおいて,この問題を扱う。
このプロセスは、複数ラベル学習における2階法または高階法の計算オーバーヘッドを伴わないラベル間の暗黙の相関を誘導する。
新たなアプローチとアーキテクチャを組み合わせることで,MobileNetV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出するための最先端の結果を提示する。
最後に、sa-mobilenetはsun397、nyu-v1、ade20kのデータセットのmobilenetv3よりも6.42%、10.51%、9.09%、snapdragon 750オクタコアの少なくとも4ミリ秒高速である。
関連論文リスト
- Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T18:00:06Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Detecting soccer balls with reduced neural networks: a comparison of
multiple architectures under constrained hardware scenarios [0.8808021343665321]
この研究は、制約のあるハードウェア環境をターゲットにした最近のニューラルネットワークの提案の比較研究を提供する。
我々は、MobileNetV2とMobileNetV3モデルの複数のオープン実装を、基礎となる異なるアーキテクチャで訓練する。
以上の結果から,MobileNetV3モデルは制約シナリオのみにおいて,mAPと推論時間とのトレードオフが良好であること,また,高幅乗算器を持つMobileNetV2はサーバ側推論に適していることが示唆された。
論文 参考訳(メタデータ) (2020-09-28T23:26:25Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。