論文の概要: A Study on Inference Latency for Vision Transformers on Mobile Devices
- arxiv url: http://arxiv.org/abs/2510.25166v1
- Date: Wed, 29 Oct 2025 04:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.085808
- Title: A Study on Inference Latency for Vision Transformers on Mobile Devices
- Title(参考訳): モバイルデバイスにおける視覚変換器の推論レイテンシに関する検討
- Authors: Zhuojin Li, Marco Paolieri, Leana Golubchik,
- Abstract要約: 実世界の102個の畳み込みニューラルネットワーク(CNN)を用いたモバイルデバイスにおける190個の実世界の視覚変換器(ViT)の性能特性の比較を行った。
実世界のアプリケーションでは,新しいViTの推論遅延を十分な精度で予測できることを示す。
- 参考スコア(独自算出の注目度): 1.3356260369011272
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given the significant advances in machine learning techniques on mobile devices, particularly in the domain of computer vision, in this work we quantitatively study the performance characteristics of 190 real-world vision transformers (ViTs) on mobile devices. Through a comparison with 102 real-world convolutional neural networks (CNNs), we provide insights into the factors that influence the latency of ViT architectures on mobile devices. Based on these insights, we develop a dataset including measured latencies of 1000 synthetic ViTs with representative building blocks and state-of-the-art architectures from two machine learning frameworks and six mobile platforms. Using this dataset, we show that inference latency of new ViTs can be predicted with sufficient accuracy for real-world applications.
- Abstract(参考訳): 本研究は,モバイルデバイス,特にコンピュータビジョン領域における機械学習技術の大幅な進歩を踏まえ,モバイルデバイスにおける190個の実世界の視覚変換器(ViT)の性能特性を定量的に研究する。
102の現実世界の畳み込みニューラルネットワーク(CNN)との比較を通じて、モバイルデバイス上でのViTアーキテクチャのレイテンシに影響を与える要因に関する洞察を提供する。
これらの知見に基づいて、2つの機械学習フレームワークと6つのモバイルプラットフォームから、代表的なビルディングブロックを備えた1000の合成ViTのレイテンシと最先端アーキテクチャを含むデータセットを開発する。
このデータセットを用いて、実世界のアプリケーションに十分な精度で新しいViTの推論遅延を予測することができることを示す。
関連論文リスト
- VertiFormer: A Data-Efficient Multi-Task Transformer for Off-Road Robot Mobility [49.512339092493384]
VertiFormerは、たった1時間のデータでトレーニングされた、新しいデータ効率のマルチタスクトランスフォーマーモデルである。
我々の実験は、限られたデータでオフロードロボットの移動にトランスフォーマーを効果的に活用するための洞察を提供する。
論文 参考訳(メタデータ) (2025-02-01T20:21:00Z) - Learning Priors of Human Motion With Vision Transformers [5.739073185982992]
この情報を提供するために、視覚変換器(ViT)に基づくニューラルネットワークを提案する。
この解は畳み込みニューラルネットワーク(CNN)よりも効果的に空間相関を捉えることができる。
論文 参考訳(メタデータ) (2025-01-30T18:12:11Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition [2.8381580557475963]
モバイルデバイス上でのヒューマンアクティビティ認識(HAR)は、デバイスの慣性測定ユニットから収集されたデータに基づいてトレーニングされたニューラルネットワークを使用して可能であることが実証されている。
これらのモデルでは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Transformer(トランスフォーマー)、あるいはこれらを組み合わせて、最先端の結果とリアルタイムのパフォーマンスを実現している。
本稿では、機械学習アプリケーションにおけるデータ不均一性の問題と、それが広範に展開することを妨げる方法について述べる。
我々はHARTとMobileHART for Human Activity Recognition Transformerという2つのセンサワイドトランスアーキテクチャのコードを提案し,公開する。
論文 参考訳(メタデータ) (2022-09-22T09:42:08Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Empirical Characterization of Mobility of Multi-Device Internet Users [1.1141688859736805]
我々は、大規模なキャンパスWiFiデータセットを用いて、複数のデバイスを複数の空間スケールで所有する現代のインターネットユーザのモビリティを実証分析した。
この結果から,ユーザに属する複数のデバイスのモビリティを独立して解析し,グループとしてモデル化する必要があることが示された。
分析の結果, 利用者の移動性は, 建物内や建物間など, 異なる空間スケールで異なる特徴を示すことがわかった。
論文 参考訳(メタデータ) (2020-03-18T23:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。