論文の概要: Typing on Any Surface: A Deep Learning-based Method for Real-Time
Keystroke Detection in Augmented Reality
- arxiv url: http://arxiv.org/abs/2309.00174v2
- Date: Thu, 2 Nov 2023 05:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:56:00.391262
- Title: Typing on Any Surface: A Deep Learning-based Method for Real-Time
Keystroke Detection in Augmented Reality
- Title(参考訳): 任意の表面でのタイピング:拡張現実におけるリアルタイムキーストローク検出のための深層学習に基づく手法
- Authors: Xingyu Fu and Mingze Xi
- Abstract要約: 空中キーボードインターフェース、ワイヤレスキーボード、または音声入力は、エルゴノミクス設計が貧弱で、精度が限られているか、単に公の場で使うのが恥ずかしい。
本稿では、ユーザ視点のRGBビデオストリームから、ARアプリケーションがキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。
既製ハンドランドマーク抽出器と,適応型畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを開発した。
- 参考スコア(独自算出の注目度): 4.857109990499532
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Frustrating text entry interface has been a major obstacle in participating
in social activities in augmented reality (AR). Popular options, such as
mid-air keyboard interface, wireless keyboards or voice input, either suffer
from poor ergonomic design, limited accuracy, or are simply embarrassing to use
in public. This paper proposes and validates a deep-learning based approach,
that enables AR applications to accurately predict keystrokes from the user
perspective RGB video stream that can be captured by any AR headset. This
enables a user to perform typing activities on any flat surface and eliminates
the need of a physical or virtual keyboard. A two-stage model, combing an
off-the-shelf hand landmark extractor and a novel adaptive Convolutional
Recurrent Neural Network (C-RNN), was trained using our newly built dataset.
The final model was capable of adaptive processing user-perspective video
streams at ~32 FPS. This base model achieved an overall accuracy of $91.05\%$
when typing 40 Words per Minute (wpm), which is how fast an average person
types with two hands on a physical keyboard. The Normalised Levenshtein
Distance also further confirmed the real-world applicability of that our
approach. The promising results highlight the viability of our approach and the
potential for our method to be integrated into various applications. We also
discussed the limitations and future research required to bring such technique
into a production system.
- Abstract(参考訳): テキスト入力インタフェースのフラストレーションは,拡張現実(AR)における社会的活動への参加において大きな障害となっている。
ポピュラーなキーボードインターフェース、ワイヤレスキーボード、音声入力などのオプションは、エルゴノミクス設計の貧弱さ、精度の制限、あるいは単に公の場で使うのが恥ずかしい。
本稿では、ARアプリケーションが任意のARヘッドセットでキャプチャ可能なRGBビデオストリームからキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。
これにより、ユーザは任意の平面上でタイピングアクティビティを実行でき、物理的なキーボードや仮想キーボードを必要としない。
既製ハンドランドマーク抽出器と新しい適応畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを構築した。
最終モデルは、32 FPSのユーザ・パースペクティブ・ビデオストリームを適応処理できる。
このベースモデルでは、40ワード毎分(wpm)の入力で91.05\%$という全体的な精度を達成している。
通常のLevenshtein Distanceも,我々のアプローチの現実的な適用性を確認した。
有望な結果は,我々のアプローチが実現可能であり,様々なアプリケーションに統合できる可能性を示している。
また,このような技術を生産システムに導入するために必要な限界と今後の研究についても論じる。
関連論文リスト
- TapType: Ten-finger text entry on everyday surfaces via Bayesian inference [32.33746932895968]
TapTypeは、受動的表面のフルサイズのタイピングのためのモバイルテキスト入力システムである。
バンド内の慣性センサーから、TapTypeは、表面タップと従来のQWERTYキーボードレイアウトをデコードして関連付ける。
論文 参考訳(メタデータ) (2024-10-08T12:58:31Z) - Sparse Binarization for Fast Keyword Spotting [10.964148450512972]
KWSモデルは、リアルタイムアプリケーション、プライバシ、帯域幅効率のためにエッジデバイスにデプロイすることができる。
本稿では,スパース入力表現に基づく新しいキーワードスポッティングモデルを提案する。
また,本手法は高速かつノイズの多い環境でもより堅牢である。
論文 参考訳(メタデータ) (2024-06-09T08:03:48Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Teachable Reality: Prototyping Tangible Augmented Reality with Everyday
Objects by Leveraging Interactive Machine Teaching [4.019017835137353]
Teachable Realityは、任意の日常オブジェクトでインタラクティブな有形ARアプリケーションを作成するための拡張現実(AR)プロトタイプツールである。
オンデマンドコンピュータビジョンモデルを用いて、ユーザ定義の有形および外見的相互作用を識別する。
当社のアプローチは,ARプロトタイプ作成の障壁を低くすると同時に,フレキシブルで汎用的なプロトタイピング体験を可能にする。
論文 参考訳(メタデータ) (2023-02-21T23:03:49Z) - Muscle Vision: Real Time Keypoint Based Pose Classification of Physical
Exercises [52.77024349608834]
ビデオから外挿された3D人間のポーズ認識は、リアルタイムソフトウェアアプリケーションを可能にするまで進歩した。
本稿では,ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案する。
論文 参考訳(メタデータ) (2022-03-23T00:55:07Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。