論文の概要: Resource-Efficient Gesture Recognition through Convexified Attention
- arxiv url: http://arxiv.org/abs/2602.13030v1
- Date: Fri, 13 Feb 2026 15:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.016264
- Title: Resource-Efficient Gesture Recognition through Convexified Attention
- Title(参考訳): 包括的注意による資源効率の良いジェスチャー認識
- Authors: Daniel Schwartz, Dario Salvucci, Yusuf Osmanlioglu, Richard Vallett, Genevieve Dion, Ali Shokoufandeh,
- Abstract要約: 繊維集積インタフェースのための凸型アテンション機構を提案する。
本手法は,タップジェスチャーでは100.00%,スワイプジェスチャーでは100.00%の精度を実現する。
- 参考スコア(独自算出の注目度): 0.5025737475817937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wearable e-textile interfaces require gesture recognition capabilities but face severe constraints in power consumption, computational capacity, and form factor that make traditional deep learning impractical. While lightweight architectures like MobileNet improve efficiency, they still demand thousands of parameters, limiting deployment on textile-integrated platforms. We introduce a convexified attention mechanism for wearable applications that dynamically weights features while preserving convexity through nonexpansive simplex projection and convex loss functions. Unlike conventional attention mechanisms using non-convex softmax operations, our approach employs Euclidean projection onto the probability simplex combined with multi-class hinge loss, ensuring global convergence guarantees. Implemented on a textile-based capacitive sensor with four connection points, our approach achieves 100.00\% accuracy on tap gestures and 100.00\% on swipe gestures -- consistent across 10-fold cross-validation and held-out test evaluation -- while requiring only 120--360 parameters, a 97\% reduction compared to conventional approaches. With sub-millisecond inference times (290--296$μ$s) and minimal storage requirements ($<$7KB), our method enables gesture interfaces directly within e-textiles without external processing. Our evaluation, conducted in controlled laboratory conditions with a single-user dataset, demonstrates feasibility for basic gesture interactions. Real-world deployment would require validation across multiple users, environmental conditions, and more complex gesture vocabularies. These results demonstrate how convex optimization can enable efficient on-device machine learning for textile interfaces.
- Abstract(参考訳): ウェアラブルなe-テキスタイルインタフェースはジェスチャー認識機能を必要とするが、消費電力、計算能力、そして従来のディープラーニングを非現実的にするフォームファクターに厳しい制約に直面している。
MobileNetのような軽量アーキテクチャは効率を向上するが、それでも数千のパラメータを必要としており、繊維統合プラットフォームへのデプロイを制限している。
本研究では,非拡張的単純影投影と凸損失関数による凸性を保ちつつ,特徴量を動的に重み付けするウェアラブルアプリケーションのための凸強調機構を提案する。
非凸ソフトマックス演算を用いた従来の注意機構とは異なり、本手法では多クラスヒンジ損失と組み合わせた確率単純度へのユークリッド射影を用い、大域収束を保証する。
接続点が4つある繊維ベースの容量センサに実装し, 従来の手法に比べて, 100.00\%の精度, 100.00\%のスワイプジェスチャー – 10倍のクロスバリデーションとホールドアウトテスト評価 – を実現し, 120-360パラメータしか必要とせず, 従来の手法に比べて97\%の削減を実現した。
サブミリ秒の推論時間(290--296$μ$s)と最小ストレージ($7KB)で、外部処理なしでジェスチャーインタフェースを直接利用できる。
単一ユーザデータセットを用いた実験室環境下で実施した評価は,基本的なジェスチャーインタラクションの実現可能性を示す。
実世界のデプロイメントには、複数のユーザ、環境条件、より複雑なジェスチャー語彙の検証が必要になります。
これらの結果から,コンベックス最適化により,布地インタフェースのデバイス上での効率的な機械学習が実現できることが示唆された。
関連論文リスト
- CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation [6.478456907626643]
CLIDD (Cross-Layer Independent Deformable Description) は、独立な特徴階層から直接サンプリングすることで、優れた特徴性を実現する手法である。
リアルタイム性能を確保するため,ハードウェア対応のカーネル融合戦略を実装した。
軽量アーキテクチャとトレーニングプロトコルを統合するスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2026-01-14T07:03:01Z) - Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - Synheart Emotion: Privacy-Preserving On-Device Emotion Recognition from Biosignals [0.0]
ほとんどの感情認識システムはクラウドベースの推論に依存しており、リアルタイムアプリケーションには適さないプライバシーの脆弱性とレイテンシの制約を導入している。
本研究は、手首型フォトプレソグラフィーからデバイス上での感情認識のための機械学習アーキテクチャの包括的な評価を行う。
ONNX変換によって最適化された手首のみのExtraTreesモデルをデプロイし,4.08MBのフットプリント,0.05msの推論遅延,オリジナル実装よりも152倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-11-09T05:15:04Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Constrained Machine Learning Through Hyperspherical Representation [4.129133569151574]
凸領域と有界領域の出力空間における制約を強制する新しい手法を提案する。
提案手法は,他の手法に匹敵する予測性能を有し,制約満足度を100%保証し,推論時の計算コストを最小限に抑える。
論文 参考訳(メタデータ) (2025-04-11T10:19:49Z) - Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Exploring the Open World Using Incremental Extreme Value Machines [11.3660790934494]
オープンワールド認識は、私たちの知る限りでは、いくつかの方法によってのみ対処される、要求の多いタスクです。
この研究は、広く知られているExtreme Value Machineの修正を導入し、オープンワールドの認識を可能にした。
提案手法は,画像分類と顔認識のタスクにおいて,約12%の精度と計算効率を向上する。
論文 参考訳(メタデータ) (2022-05-30T07:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。