論文の概要: RingGesture: A Ring-Based Mid-Air Gesture Typing System Powered by a Deep-Learning Word Prediction Framework
- arxiv url: http://arxiv.org/abs/2410.18100v1
- Date: Tue, 08 Oct 2024 13:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:05.004807
- Title: RingGesture: A Ring-Based Mid-Air Gesture Typing System Powered by a Deep-Learning Word Prediction Framework
- Title(参考訳): RingGesture: 深層学習語予測フレームワークを利用したリング型中空ジェスチャータイピングシステム
- Authors: Junxiao Shen, Roger Boldu, Arpit Kalla, Michael Glueck, Hemant Bhaskar Surale Amy Karlson,
- Abstract要約: RingGestureは、電極を利用してジェスチャー軌道の開始と終了をマークするリングベースの空中ジェスチャータイピング技術である。
本稿では,3つの要素からなる新しい単語予測フレームワークであるScore Fusionを提案する。
RingGestureは平均テキスト入力速度が27.3ワード/分(WPM)、ピーク性能が47.9WPMである。
- 参考スコア(独自算出の注目度): 2.4992122541451987
- License:
- Abstract: Text entry is a critical capability for any modern computing experience, with lightweight augmented reality (AR) glasses being no exception. Designed for all-day wearability, a limitation of lightweight AR glass is the restriction to the inclusion of multiple cameras for extensive field of view in hand tracking. This constraint underscores the need for an additional input device. We propose a system to address this gap: a ring-based mid-air gesture typing technique, RingGesture, utilizing electrodes to mark the start and end of gesture trajectories and inertial measurement units (IMU) sensors for hand tracking. This method offers an intuitive experience similar to raycast-based mid-air gesture typing found in VR headsets, allowing for a seamless translation of hand movements into cursor navigation. To enhance both accuracy and input speed, we propose a novel deep-learning word prediction framework, Score Fusion, comprised of three key components: a) a word-gesture decoding model, b) a spatial spelling correction model, and c) a lightweight contextual language model. In contrast, this framework fuses the scores from the three models to predict the most likely words with higher precision. We conduct comparative and longitudinal studies to demonstrate two key findings: firstly, the overall effectiveness of RingGesture, which achieves an average text entry speed of 27.3 words per minute (WPM) and a peak performance of 47.9 WPM. Secondly, we highlight the superior performance of the Score Fusion framework, which offers a 28.2% improvement in uncorrected Character Error Rate over a conventional word prediction framework, Naive Correction, leading to a 55.2% improvement in text entry speed for RingGesture. Additionally, RingGesture received a System Usability Score of 83 signifying its excellent usability.
- Abstract(参考訳): テキスト入力は現代のコンピューティング体験にとって重要な機能であり、軽量拡張現実(AR)メガネは例外ではない。
オールデイの装着性のために設計された軽量ARガラスの制限は、ハンドトラッキングの広い視野に複数のカメラを装着することを制限することである。
この制約は、追加の入力デバイスの必要性を浮き彫りにする。
リングベースのジェスチャータイピング技術であるリングジェスチャ(RingGesture)を用いて,ジェスチャー軌跡の始点と終端を示す電極と,ハンドトラッキングのための慣性計測ユニット(IMU)センサを提案する。
この方法は、VRヘッドセットに見られるレイキャストベースの空中ジェスチャータイピングに似た直感的な体験を提供し、手の動きをカーソルナビゲーションにシームレスに翻訳することができる。
精度と入力速度を両立させるため,三つの要素からなる新しい単語予測フレームワーク,Score Fusionを提案する。
a) 単語位置復号化モデル
b) 空間スペル補正モデル
c)軽量な文脈言語モデル。
対照的に、このフレームワークは3つのモデルのスコアを融合させ、高い精度で最も可能性の高い単語を予測する。
まず,平均テキスト入力速度27.3ワード/分 (WPM) とピーク性能47.9WPM (WPM) の2つの重要な結果を示す。
次に、従来の単語予測フレームワークであるNaive Correctionよりも28.2%の誤り率向上を実現し、RingGestureのテキスト入力速度が55.2%向上したScore Fusionフレームワークの優れたパフォーマンスを強調した。
さらにRingGestureは、その優れたユーザビリティを示す83のシステムユーザビリティスコアを受け取った。
関連論文リスト
- Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling [0.953605234706973]
Pen SLRは、IMU(Inertial Measurement Unit)とディープラーニングフレームワークによって駆動される5つのフレキシブルセンサーで構成されるグローブベースの手話システムである。
本稿では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新しいアンサンブル手法を提案する。
評価の結果,Pen SLRの単語精度は94.58%,96.70%であった。
論文 参考訳(メタデータ) (2024-06-24T07:59:34Z) - Motor Focus: Fast Ego-Motion Prediction for Assistive Visual Navigation [3.837186701755568]
Motor Focusは、視覚的なフィードに基づいて観察者の動き方向を予測する画像ベースのフレームワークである。
我々のフレームワークは、速度(>40FPS)、精度(MAE = 60ピクセル)、堅牢性(SNR = 23dB)においてその優位性を示す。
論文 参考訳(メタデータ) (2024-04-25T20:45:39Z) - Typing on Any Surface: A Deep Learning-based Method for Real-Time
Keystroke Detection in Augmented Reality [4.857109990499532]
空中キーボードインターフェース、ワイヤレスキーボード、または音声入力は、エルゴノミクス設計が貧弱で、精度が限られているか、単に公の場で使うのが恥ずかしい。
本稿では、ユーザ視点のRGBビデオストリームから、ARアプリケーションがキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。
既製ハンドランドマーク抽出器と,適応型畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを開発した。
論文 参考訳(メタデータ) (2023-08-31T23:58:25Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - FastHand: Fast Hand Pose Estimation From A Monocular Camera [12.790733588554588]
ハンドポーズ推定のための高速・高精度なフレームワーク「FastHand」を提案します。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
論文 参考訳(メタデータ) (2021-02-14T04:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。