論文の概要: Multimodal Appearance based Gaze-Controlled Virtual Keyboard with Synchronous Asynchronous Interaction for Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2508.16606v1
- Date: Tue, 12 Aug 2025 13:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.573229
- Title: Multimodal Appearance based Gaze-Controlled Virtual Keyboard with Synchronous Asynchronous Interaction for Low-Resource Settings
- Title(参考訳): 低リソース設定のための同期非同期インタラクションによるマルチモーダル外観に基づくゲイズ制御仮想キーボード
- Authors: Yogesh Kumar Meena, Manish Salvi,
- Abstract要約: 本研究は、標準的なカメラハードウェアと併用してディープラーニングを利用するマルチモーダルな外観に基づく視線制御仮想キーボードを提案する。
仮想キーボードアプリケーションは、9つのコマンドでメニューベースの選択をサポートし、ユーザーは最大56の英語の文字をスペルしてタイプできる。
平均タイピング速度は18.3+-5.31文字/分(マウス)、12.60+-2.99レター/分(アイトラッカー、同期)、10.94+- 1.89文字/分(ウェブカム、同期)、7.86+- 1.69文字/分(ウェブカム、非同期)であった。
- 参考スコア(独自算出の注目度): 7.727905404396572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, the demand for communication devices has increased among individuals with mobility and speech impairments. Eye-gaze tracking has emerged as a promising solution for hands-free communication; however, traditional appearance-based interfaces often face challenges such as accuracy issues, involuntary eye movements, and difficulties with extensive command sets. This work presents a multimodal appearance-based gaze-controlled virtual keyboard that utilises deep learning in conjunction with standard camera hardware, incorporating both synchronous and asynchronous modes for command selection. The virtual keyboard application supports menu-based selection with nine commands, enabling users to spell and type up to 56 English characters, including uppercase and lowercase letters, punctuation, and a delete function for corrections. The proposed system was evaluated with twenty able-bodied participants who completed specially designed typing tasks using three input modalities: (i) a mouse, (ii) an eye-tracker, and (iii) an unmodified webcam. Typing performance was measured in terms of speed and information transfer rate (ITR) at both command and letter levels. Average typing speeds were 18.3+-5.31 letters/min (mouse), 12.60+-2.99letters/min (eye-tracker, synchronous), 10.94 +- 1.89 letters/min (webcam, synchronous), 11.15 +- 2.90 letters/min (eye-tracker, asynchronous), and 7.86 +- 1.69 letters/min (webcam, asynchronous). ITRs were approximately 80.29 +- 15.72 bits/min (command level) and 63.56 +- 11 bits/min (letter level) with webcam in synchronous mode. The system demonstrated good usability and low workload with webcam input, highlighting its user-centred design and promise as an accessible communication tool in low-resource settings.
- Abstract(参考訳): 過去10年間で、モビリティや音声障害を抱える個人の間では、通信機器の需要が増加している。
目視追跡は、ハンズフリーコミュニケーションのための有望な解決策として現れてきたが、従来の外観ベースのインタフェースは、しばしば精度の問題、不随意眼球運動、広範囲な命令セットの難しさといった課題に直面している。
本研究は,マルチモーダルな外観に基づく視線制御仮想キーボードで,コマンド選択に同期モードと非同期モードを併用して,標準的なカメラハードウェアと併用してディープラーニングを利用する。
仮想キーボードアプリケーションは、9つのコマンドでメニューベースの選択をサポートし、ユーザーは最大56の英語文字を綴り、入力することができる。
提案システムは,3つの入力モードを用いて特別に設計されたタイピングタスクを完了した20名の有能な被験者を対象に評価を行った。
マウス; マウス; マウス; マウス
(二)視線追跡装置、及び
(三)未修正のウェブカメラ。
タイピング性能は命令レベルと文字レベルの速度と情報伝達率(ITR)で測定した。
平均タイピング速度は18.3+-5.31文字/分(マウス)、12.60+-2.99レター/分(アイトラッカー、同期)、10.94+- 1.89文字/分(ウェブカム、同期)、11.15+- 2.90文字/分(アイトラッカー、非同期)、7.86+- 1.69文字/分(ウェブカム、非同期)であった。
ITR は約 80.29 +- 15.72 bits/min (コマンドレベル) と 63.56 +- 11 bits/min (レターレベル) で、ウェブカメラは同期モードであった。
このシステムは、Webカメラ入力による優れたユーザビリティと低負荷を示し、ユーザ中心の設計と低リソース環境での通信ツールとしての約束を強調した。
関連論文リスト
- MinMo: A Multimodal Large Language Model for Seamless Voice Interaction [73.39573341265027]
シームレスな音声対話のためのマルチモーダル大規模言語モデルMinMoを紹介する。
我々は、音声テキストから音声へのアライメント、テキストから音声へのアライメント、音声から音声へのアライメント、二重相互作用を通じてMinMoを訓練する。
マルチテキストトレーニングの後、MinMoは音声の理解と生成のための様々なベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-01-10T15:55:27Z) - RingGesture: A Ring-Based Mid-Air Gesture Typing System Powered by a Deep-Learning Word Prediction Framework [2.4992122541451987]
RingGestureは、電極を利用してジェスチャー軌道の開始と終了をマークするリングベースの空中ジェスチャータイピング技術である。
本稿では,3つの要素からなる新しい単語予測フレームワークであるScore Fusionを提案する。
RingGestureは平均テキスト入力速度が27.3ワード/分(WPM)、ピーク性能が47.9WPMである。
論文 参考訳(メタデータ) (2024-10-08T13:15:30Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT
Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。
InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:58:34Z) - MotionInput v2.0 supporting DirectX: A modular library of open-source
gesture-based machine learning and computer vision methods for interacting
and controlling existing software with a webcam [11.120698968989108]
MotionInput v2.0は、既存のアプリケーションやゲームの入力操作に人間の動きのジェスチャーをマッピングする。
3つのユースケース領域は、創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェアというモジュールの開発を支援した。
論文 参考訳(メタデータ) (2021-08-10T08:23:21Z) - Writing in The Air: Unconstrained Text Recognition from Finger Movement
Using Spatio-Temporal Convolution [3.3502165500990824]
本論文では,WiTA(Entering writing in the Air)タスクに対する新たなベンチマークデータセットについて紹介する。
WiTAは、人間とコンピュータの相互作用のための指の動きと直感的で自然な書き込み方法を実装します。
私たちのデータセットは、2つの言語(韓国語と英語)の5つのサブデータセットで構成され、122の参加者から209,926インスタンスに相当します。
論文 参考訳(メタデータ) (2021-04-19T02:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。