論文の概要: FaceLiVT: Face Recognition using Linear Vision Transformer with Structural Reparameterization For Mobile Device
- arxiv url: http://arxiv.org/abs/2506.10361v1
- Date: Thu, 12 Jun 2025 05:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.587238
- Title: FaceLiVT: Face Recognition using Linear Vision Transformer with Structural Reparameterization For Mobile Device
- Title(参考訳): FaceLiVT:モバイルデバイス用リニアビジョントランスを用いた顔認識
- Authors: Novendra Setyawan, Chi-Chia Sun, Mao-Hsiu Hsu, Wen-Kai Kuo, Jun-Wei Hsieh,
- Abstract要約: FaceLiVTは軽量だが強力な顔認識モデルである。
ハイブリッドの畳み込みニューラルネットワーク(CNN)-トランスフォーマーアーキテクチャと、革新的で軽量なマルチヘッド線形アテンション機構を統合している。
- 参考スコア(独自算出の注目度): 3.617580194719686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces FaceLiVT, a lightweight yet powerful face recognition model that integrates a hybrid Convolution Neural Network (CNN)-Transformer architecture with an innovative and lightweight Multi-Head Linear Attention (MHLA) mechanism. By combining MHLA alongside a reparameterized token mixer, FaceLiVT effectively reduces computational complexity while preserving competitive accuracy. Extensive evaluations on challenging benchmarks; including LFW, CFP-FP, AgeDB-30, IJB-B, and IJB-C; highlight its superior performance compared to state-of-the-art lightweight models. MHLA notably improves inference speed, allowing FaceLiVT to deliver high accuracy with lower latency on mobile devices. Specifically, FaceLiVT is 8.6 faster than EdgeFace, a recent hybrid CNN-Transformer model optimized for edge devices, and 21.2 faster than a pure ViT-Based model. With its balanced design, FaceLiVT offers an efficient and practical solution for real-time face recognition on resource-constrained platforms.
- Abstract(参考訳): 本稿では,複合畳み込みニューラルネットワーク(CNN)-トランスフォーマーアーキテクチャと,革新的で軽量なマルチヘッド線形注意(MHLA)機構を統合した,軽量かつ強力な顔認識モデルFaceLiVTを紹介する。
MHLAと再パラメータ化トークンミキサーを組み合わせることで、FaceLiVTは競合精度を維持しながら、計算複雑性を効果的に低減する。
LFW、CFP-FP、AgeDB-30、IJB-B、IJB-Cなど、挑戦的なベンチマークに関する大規模な評価は、最先端の軽量モデルよりも優れたパフォーマンスを示している。
MHLAは推論速度を著しく改善し、FaceLiVTはモバイルデバイスで低レイテンシで高い精度を提供することができる。
具体的には、FaceLiVTはエッジデバイス向けに最適化された最近のハイブリッドCNN-TransformerモデルであるEdgeFaceよりも8.6倍、純粋なViTベースのモデルよりも21.2高速である。
バランスの取れた設計により、FaceLiVTはリソース制約のあるプラットフォーム上でリアルタイムの顔認識のための効率的で実用的なソリューションを提供する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - EdgeFace: Efficient Face Recognition Model for Edge Devices [8.78717459496649]
EdgeFaceは、EdgeNeXtのハイブリッドアーキテクチャにインスパイアされた、軽量で効率的な顔認識ネットワークである。
LFW (99.73%) , IJB-B (92.67%) および IJB-C (94.85%) の術式結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T17:30:19Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Migrating Face Swap to Mobile Devices: A lightweight Framework and A
Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。
軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文 参考訳(メタデータ) (2022-04-13T05:35:11Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。