論文の概要: Blink-to-code: real-time Morse code communication via eye blink detection and classification
- arxiv url: http://arxiv.org/abs/2508.09344v1
- Date: Tue, 12 Aug 2025 21:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.694587
- Title: Blink-to-code: real-time Morse code communication via eye blink detection and classification
- Title(参考訳): Blink-to-code:アイリンク検出と分類によるリアルタイムモース符号通信
- Authors: Anushka Bhatt,
- Abstract要約: 本研究では、随意点滅をモース符号に変換するリアルタイムシステムを提案する。
このシステムは、瞬きを短い(ドット)または長い(ダッシュ)として検出し、分類し、その後、それらを英数字の文字に復号する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a real-time system that translates voluntary eye blinks into Morse code, enabling communication for individuals with severe motor impairments. Using a standard webcam and computer vision, the system detects and classifies blinks as short (dot) or long (dash), then decodes them into alphanumeric characters. Experiments with five participants show 62% decoding accuracy and 18-20 seconds response times, demonstrating a viable, low-cost assistive communication method.
- Abstract(参考訳): 本研究では、随意点眼をモース符号に変換するリアルタイムシステムを提案する。
標準的なウェブカメラとコンピュータビジョンを用いて、システムは点滅をショート(ドット)またはロング(ダッシュ)として検出し、分類し、それらをアルファ数字の文字に復号する。
5人の被験者による実験では62%の復号精度と18~20秒の応答時間を示し、実用的で低コストな補助コミュニケーション方法を示している。
関連論文リスト
- SLRNet: A Real-Time LSTM-Based Sign Language Recognition System [0.0]
SLRNetは、MediaPipe Holistic and Long Short-Term Memory (LSTM)ネットワークを用いたリアルタイムWebカメラベースのASL認識システムである。
モデルはビデオストリームを処理し、ASLアルファベット文字と機能語の両方を認識する。
論文 参考訳(メタデータ) (2025-06-11T14:30:47Z) - On the Utility of Quantum Entanglement for Joint Communication and Instantaneous Detection [2.6641834518599303]
絡み合いは、量子資源を利用する通信および検出方式の性能を著しく向上させることが知られている。
本研究では、(結合)通信および検出スキームにおける量子絡み合いの同時利用について検討する。
論文 参考訳(メタデータ) (2025-03-27T03:51:59Z) - Real-time Bangla Sign Language Translator [0.3222802562733786]
Bangla Sign Language Translation (BSLT)は、聴覚障害とミュートコミュニティのコミュニケーションギャップを埋めることを目的としている。
提案手法では,キーポイントの収集にMediapipe Holistic,データトレーニングにLSTMアーキテクチャ,94%の精度でリアルタイム手話検出にComputer Visionを採用している。
論文 参考訳(メタデータ) (2024-12-21T05:56:32Z) - BLINK: Multimodal Large Language Models Can See but Not Perceive [96.42283517696535]
Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。
Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。
GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
論文 参考訳(メタデータ) (2024-04-18T17:59:54Z) - WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset [42.431350136679704]
WebQAmGazeは、多言語で低コストなアイトラッキング対応データセットである。
WebQAmGazeには、英語、ドイツ語、スペイン語、トルコ語のテキストを自然に読む幅広い年齢層の600人の参加者によるWebカメラによるアイトラッキングデータが含まれている。
論文 参考訳(メタデータ) (2023-03-31T08:18:30Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。