論文の概要: Voice-Controlled Scratch for Children with (Motor) Disabilities
- arxiv url: http://arxiv.org/abs/2603.28246v1
- Date: Mon, 30 Mar 2026 10:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.33357
- Title: Voice-Controlled Scratch for Children with (Motor) Disabilities
- Title(参考訳): 運動障害児のための音声制御スクラッチ
- Authors: Elias Goller, Gordon Fraser, Isabella Graßl,
- Abstract要約: 我々は,音声制御によるScratchのコード編集を可能にするアプローチであるMeowCrophoneを紹介する。
MeowCrophoneは、クリック要素、ブロックの配置、マルチモーダル音声ユーザインターフェースによるワークスペースのナビゲートをサポートする。
MeowCrophoneのパイプラインは結果を82.8%改善し、単純なコマンドは96.9%の精度に達した。
- 参考スコア(独自算出の注目度): 18.268636856831307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Block-based programming environments like Scratch have become widely adopted in Computer Science Education, but the mouse-based drag-and-drop interface can challenge users with disabilities. While prior work has provided solutions supporting children with visual impairment, these solutions tend to focus on making content perceivable and do not address the physical interaction barriers faced by users with motor disabilities. To bridge this gap, we introduce MeowCrophone, an approach that uses voice control to allow editing code in Scratch. MeowCrophone supports clicking elements, placing blocks, and navigating the workspace via a multi-modal voice user interface that uses numerical overlays and label reading to bypass physical input entirely. As imperfect speech recognition is common in classrooms and for children with dysarthria, MeowCrophone employs a multi-stage matching pipeline using regular expressions, phonetic matching, and a custom grammar. Evaluation shows that while free speech recognition systems achieved a baseline success rate of only 46.4%, MeowCrophone's pipeline improved results to 82.8% overall, with simple commands reaching 96.9% accuracy. This demonstrates that robust voice control can make Scratch accessible to users for whom visual aids are insufficient.
- Abstract(参考訳): Scratchのようなブロックベースのプログラミング環境はコンピュータサイエンス教育で広く採用されているが、マウスベースのドラッグアンドドロップインタフェースは障害のあるユーザーに挑戦することができる。
これまでの研究は、視覚障害児を支援するソリューションを提供してきたが、これらのソリューションは、コンテンツを知覚可能にすることに集中し、運動障害患者が直面する物理的相互作用障壁に対処しない傾向にある。
このギャップを埋めるために,音声制御を用いてScratchのコード編集を可能にするアプローチであるMeowCrophoneを導入する。
MeowCrophoneは、クリック要素、ブロックの配置、および物理入力を完全にバイパスするために数値オーバーレイとラベル読み取りを使用するマルチモーダル音声ユーザーインターフェイスを介してワークスペースをナビゲートする。
教室では不完全な音声認識が一般的であり、難聴児には正規表現、音声マッチング、カスタム文法を用いた多段階マッチングパイプラインが使用されている。
無料音声認識システムは46.4%のベースライン成功率を達成したが、MeowCrophoneのパイプラインは全体の82.8%に改善し、単純なコマンドは96.9%の精度に達した。
これにより、堅牢な音声制御により、視覚補助が不十分なユーザに対して、Scratchがアクセス可能であることが示される。
関連論文リスト
- Sanvaad: A Multimodal Accessibility Framework for ISL Recognition and Voice-Based Interaction [0.0]
Sanvaadは、リアルタイム双方向通信をサポートするために設計された軽量なマルチモーダルアクセシビリティフレームワークである。
難聴者のために、SanvaadはMediaPipeのランドマーク上に構築されたISL認識モジュールを含んでいる。
視覚障害者向けに、多言語音声認識、テキスト要約、テキスト音声生成を統合したスクリーンフリー音声インタフェースを提供する。
論文 参考訳(メタデータ) (2025-12-06T16:16:21Z) - A Cocktail-Party Benchmark: Multi-Modal dataset and Comparative Evaluation Results [62.01871490859886]
第9回CHiMEチャレンジにおいて,マルチモーダルコンテキスト認識(MCoRec)の課題を紹介した。
MCoRecは、録音が説明のない、カジュアルなグループチャットに集中する、自然なマルチパーティの会話をキャプチャする。
このタスクでは、各話者のスピーチを共同で翻訳し、音声・視覚録音から各話者の会話にまとめることにより、「誰がいつ、何、誰と話をするのか?」という質問に答えるシステムが必要である。
論文 参考訳(メタデータ) (2025-10-27T12:36:43Z) - K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function [10.918072285423706]
K-Functionは、正確なサブワードの書き起こし、客観的スコアリング、動作可能なフィードバックを組み合わせた統合フレームワークである。
Kids-WFSTはMySTで1.39%、Multitudesで8.61%の音素誤りを達成した。
論文 参考訳(メタデータ) (2025-07-03T08:05:02Z) - Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Multistream neural architectures for cued-speech recognition using a
pre-trained visual feature extractor and constrained CTC decoding [0.0]
Cued Speech (CS)は、聴覚障害者が音声言語を理解するのを助ける視覚コミュニケーションツールである。
提案手法は、視覚特徴抽出に使用される事前訓練された手と唇のトラッカーと、マルチストリームリカレントニューラルネットワークに基づく音声デコーダに基づく。
音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れており、より複雑なベースラインと競合する。
論文 参考訳(メタデータ) (2022-04-11T09:30:08Z) - Nonverbal Sound Detection for Disordered Speech [24.636175845214822]
15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2022-02-15T22:02:58Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。