論文の概要: Gesture2Text: A Generalizable Decoder for Word-Gesture Keyboards in XR Through Trajectory Coarse Discretization and Pre-training
- arxiv url: http://arxiv.org/abs/2410.18099v1
- Date: Tue, 08 Oct 2024 12:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:11.399050
- Title: Gesture2Text: A Generalizable Decoder for Word-Gesture Keyboards in XR Through Trajectory Coarse Discretization and Pre-training
- Title(参考訳): Gesture2Text:トラジェクトリ粗い離散化と事前学習によるXRにおける単語認識キーボードの一般化可能なデコーダ
- Authors: Junxiao Shen, Khadija Khaldi, Enmin Zhou, Hemant Bhaskar Surale, Amy Karlson,
- Abstract要約: 拡張現実(AR)および仮想現実(VR)において、空中および地上のWGKシステムにまたがって一般化可能な、使用可能なWGKデコーダを提案する。
SHARK2よりも37.2%向上し、従来の神経デコーダを7.4%上回っている。
クエスト3では97ミリ秒でリアルタイムに動作できる。
- 参考スコア(独自算出の注目度): 2.81561528842917
- License:
- Abstract: Text entry with word-gesture keyboards (WGK) is emerging as a popular method and becoming a key interaction for Extended Reality (XR). However, the diversity of interaction modes, keyboard sizes, and visual feedback in these environments introduces divergent word-gesture trajectory data patterns, thus leading to complexity in decoding trajectories into text. Template-matching decoding methods, such as SHARK^2, are commonly used for these WGK systems because they are easy to implement and configure. However, these methods are susceptible to decoding inaccuracies for noisy trajectories. While conventional neural-network-based decoders (neural decoders) trained on word-gesture trajectory data have been proposed to improve accuracy, they have their own limitations: they require extensive data for training and deep-learning expertise for implementation. To address these challenges, we propose a novel solution that combines ease of implementation with high decoding accuracy: a generalizable neural decoder enabled by pre-training on large-scale coarsely discretized word-gesture trajectories. This approach produces a ready-to-use WGK decoder that is generalizable across mid-air and on-surface WGK systems in augmented reality (AR) and virtual reality (VR), which is evident by a robust average Top-4 accuracy of 90.4% on four diverse datasets. It significantly outperforms SHARK^2 with a 37.2% enhancement and surpasses the conventional neural decoder by 7.4%. Moreover, the Pre-trained Neural Decoder's size is only 4 MB after quantization, without sacrificing accuracy, and it can operate in real-time, executing in just 97 milliseconds on Quest 3.
- Abstract(参考訳): 単語認識キーボード(WGK)を用いたテキスト入力は、一般的な方法として登場し、拡張現実(XR)の鍵となる相互作用となっている。
しかし、これらの環境における相互作用モード、キーボードサイズ、視覚的フィードバックの多様性は、発散した単語位置のトラジェクトリデータパターンを導入し、それによってトラジェクトリをテキストに復号するのが複雑になる。
SHARK^2のようなテンプレートマッチングデコーディングは、実装や構成が容易であるため、これらのWGKシステムで一般的に使用される。
しかし、これらの手法はノイズのトラジェクトリに対する不正確な復号を許容する。
従来のニューラルネットワークベースのデコーダ(ニューラルデコーダ)は、単語位置追跡データに基づいてトレーニングされているが、正確性を改善するために、独自の制限がある。
これらの課題に対処するために,大規模に離散化された単語位置軌跡の事前学習を可能とした一般化可能なニューラルデコーダという,実装の容易さと高い復号精度を組み合わせた新しいソリューションを提案する。
このアプローチは、拡張現実(AR)と仮想現実(VR)において、空中および地上のWGKシステム間で一般化可能な、使用可能なWGKデコーダを生成する。
SHARK^2は37.2%向上し、従来の神経デコーダを7.4%上回る。
さらに、事前トレーニングされたニューラルデコーダのサイズは、量子化後わずか4MBで、精度を犠牲にすることなく、クエスト3上でわずか97ミリ秒で実行することができる。
関連論文リスト
- Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Data-driven decoding of quantum error correcting codes using graph
neural networks [0.0]
グラフニューラルネットワーク(GNN)を用いたモデルフリーでデータ駆動型デコーディングアプローチについて検討する。
GNNベースのデコーダは、シミュレーションデータのみを与えられた表面コード上での回路レベルのノイズに対する整合デコーダよりも優れていることを示す。
その結果、デコードに対する純粋にデータ駆動型アプローチが、実用的な量子誤り訂正のための実行可能な選択肢である可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:25:45Z) - Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems [41.24728444810133]
本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。
Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
論文 参考訳(メタデータ) (2023-06-03T17:10:33Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - DeepRx: Fully Convolutional Deep Learning Receiver [8.739166282613118]
DeepRxは完全な畳み込みニューラルネットワークで、周波数領域信号ストリームから5G準拠の方法で未符号化ビットへのレシーバパイプライン全体を実行する。
DeepRxは従来の手法よりも優れています。
論文 参考訳(メタデータ) (2020-05-04T13:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。