論文の概要: FaceLiVTv2: An Improved Hybrid Architecture for Efficient Mobile Face Recognition
- arxiv url: http://arxiv.org/abs/2604.09127v1
- Date: Fri, 10 Apr 2026 09:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.791017
- Title: FaceLiVTv2: An Improved Hybrid Architecture for Efficient Mobile Face Recognition
- Title(参考訳): FaceLiVTv2: 効率的なモバイル顔認識のためのハイブリッドアーキテクチャの改善
- Authors: Novendra Setyawan, Chi-Chia Sun, Mao-Hsiu Hsu, Wen-Kai Kuo, Jun-Wei Hsieh,
- Abstract要約: 我々は,モバイル顔認識におけるグローバル-ローカルな効率的な機能インタラクションを実現するために,FaceLiVTアーキテクチャの改良版を提案する。
その結果、FaceLiVTv2は既存の軽量メソッドよりも精度と効率のトレードオフを一貫して改善していることがわかった。
- 参考スコア(独自算出の注目度): 6.427162946484909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lightweight face recognition is increasingly important for deployment on edge and mobile devices, where strict constraints on latency, memory, and energy consumption must be met alongside reliable accuracy. Although recent hybrid CNN-Transformer architectures have advanced global context modeling, striking an effective balance between recognition performance and computational efficiency remains an open challenge. In this work, we present FaceLiVTv2, an improved version of our FaceLiVT hybrid architecture designed for efficient global--local feature interaction in mobile face recognition. At its core is Lite MHLA, a lightweight global token interaction module that replaces the original multi-layer attention design with multi-head linear token projections and affine rescale transformations, reducing redundancy while preserving representational diversity across heads. We further integrate Lite MHLA into a unified RepMix block that coordinates local and global feature interactions and adopts global depthwise convolution for adaptive spatial aggregation in the embedding stage. Under our experimental setup, results on LFW, CA-LFW, CP-LFW, CFP-FP, AgeDB-30, and IJB show that FaceLiVTv2 consistently improves the accuracy-efficiency trade-off over existing lightweight methods. Notably, FaceLiVTv2 reduces mobile inference latency by 22% relative to FaceLiVTv1, achieves speedups of up to 30.8% over GhostFaceNets on mobile devices, and delivers 20-41% latency improvements over EdgeFace and KANFace across platforms while maintaining higher recognition accuracy. These results demonstrate that FaceLiVTv2 offers a practical and deployable solution for real-time face recognition. Code is available at https://github.com/novendrastywn/FaceLiVT.
- Abstract(参考訳): 軽量な顔認識は、レイテンシ、メモリ、エネルギー消費に関する厳しい制約を、信頼性の高い精度で満たさなければならない、エッジとモバイルデバイスへのデプロイメントにおいてますます重要になっている。
近年のハイブリッドCNN-Transformerアーキテクチャは、グローバルなコンテキストモデリングが進んでいるが、認識性能と計算効率の効果的なバランスを保っていることは、未解決の課題である。
本研究では,モバイル顔認識におけるグローバルな機能インタラクションを効率的に行うために,FaceLiVTハイブリッドアーキテクチャの改良版であるFaceLiVTv2を提案する。
コアとなるLite MHLAは、従来の多層アテンション設計をマルチヘッド線形トークンプロジェクションとアフィン再スケール変換に置き換えた軽量なグローバルトークンインタラクションモジュールである。
さらに,Lite MHLAをRepMixブロックに統合し,局所的およびグローバルな特徴の相互作用を調整し,組込み段階における適応的空間アグリゲーションにグローバルな奥行き畳み込みを採用する。
実験では、LFW, CA-LFW, CP-LFW, CFP-FP, AgeDB-30, IJBの結果から、FaceLiVTv2は既存の軽量メソッドよりも精度と効率のトレードオフを一貫して改善することを示した。
特に、FaceLiVTv2は、FaceLiVTv1と比較してモバイルの推論遅延を22%削減し、モバイルデバイス上のGhostFaceNetsよりも最大30.8%のスピードアップを実現し、認識精度を維持しながら、EdgeFaceとKanFaceよりも20-41%のレイテンシ改善を実現している。
これらの結果は、FaceLiVTv2がリアルタイム顔認識のための実用的でデプロイ可能なソリューションであることを示している。
コードはhttps://github.com/novendrastywn/FaceLiVT.comで入手できる。
関連論文リスト
- HoloEv-Net: Efficient Event-based Action Recognition via Holographic Spatial Embedding and Global Spectral Gating [0.571097144710995]
イベントベース行動認識(EAR)は,高時間分解能と高ダイナミックレンジのイベントカメラにより注目されている。
既存の手法は, (i) 密度ボクセル表現の計算冗長性, (ii) マルチブランチアーキテクチャに固有の構造冗長性, (iii) グローバルな動きパターンを捉えるためのスペクトル情報の未利用性に悩まされている。
論文 参考訳(メタデータ) (2026-02-04T03:42:42Z) - FaceLiVT: Face Recognition using Linear Vision Transformer with Structural Reparameterization For Mobile Device [3.617580194719686]
FaceLiVTは軽量だが強力な顔認識モデルである。
ハイブリッドの畳み込みニューラルネットワーク(CNN)-トランスフォーマーアーキテクチャと、革新的で軽量なマルチヘッド線形アテンション機構を統合している。
論文 参考訳(メタデータ) (2025-06-12T05:36:40Z) - iFormer: Integrating ConvNet and Transformer for Mobile Application [0.6798775532273751]
iFormerは、畳み込みの高速局所表現能力と、自己意図の効率的なグローバルモデリング能力を統合する。
我々は、iFormerが様々なタスクで既存の軽量ネットワークより優れていることを示す包括的な実験を行う。
論文 参考訳(メタデータ) (2025-01-26T02:34:58Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - Migrating Face Swap to Mobile Devices: A lightweight Framework and A
Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。
軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文 参考訳(メタデータ) (2022-04-13T05:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。