論文の概要: NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction
- arxiv url: http://arxiv.org/abs/2603.10324v1
- Date: Wed, 11 Mar 2026 01:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.74401
- Title: NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction
- Title(参考訳): NasoVoce: 常に使える音声対話のための音声インタフェース
- Authors: Jun Rekimoto, Yu Nishimura, Bojian Yang,
- Abstract要約: NasoVoceは、マイクと振動センサーを内蔵したノーズブリッジ搭載のインターフェースだ。
スマートグラスの鼻パッドに配置されており、音響信号と振動信号の両方を控えめに捉えている。
- 参考スコア(独自算出の注目度): 16.067809411574995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Silent and whispered speech offer promise for always-available voice interaction with AI, yet existing methods struggle to balance vocabulary size, wearability, silence, and noise robustness. We present NasoVoce, a nose-bridge-mounted interface that integrates a microphone and a vibration sensor. Positioned at the nasal pads of smart glasses, it unobtrusively captures both acoustic and vibration signals. The nasal bridge, close to the mouth, allows access to bone- and skin-conducted speech and enables reliable capture of low-volume utterances such as whispered speech. While the microphone captures high-quality audio, it is highly sensitive to environmental noise. Conversely, the vibration sensor is robust to noise but yields lower signal quality. By fusing these complementary inputs, NasoVoce generates high-quality speech robust against interference. Evaluation with Whisper Large-v2, PESQ, STOI, and MUSHRA ratings confirms improved recognition and quality. NasoVoce demonstrates the feasibility of a practical interface for always-available, continuous, and discreet AI voice conversations.
- Abstract(参考訳): サイレントでささやかなスピーチは、常に利用可能なAIとの音声インタラクションを約束するが、既存の方法は語彙のサイズ、着用性、沈黙、ノイズの堅牢性のバランスをとるのに苦労している。
本稿では,マイクロフォンと振動センサを統合した鼻橋搭載インタフェースであるNasoVoceについて紹介する。
スマートグラスの鼻パッドに配置されており、音響信号と振動信号の両方を控えめに捉えている。
鼻のブリッジは口の近くにあり、骨や皮膚を伝導する音声へのアクセスを可能にし、ささやき声のような低ボリュームの発話を確実に捉えることができる。
マイクロホンは高品質なオーディオをキャプチャするが、環境騒音に非常に敏感である。
逆に、振動センサはノイズに対して頑丈であるが、信号品質は低い。
これらの補完的な入力を融合することにより、NasoVoceは干渉に対して堅牢な高品質な音声を生成する。
Whisper Large-v2, PESQ, STOI, MUSHRAによる評価により, 認識と品質の向上が確認された。
NasoVoceは、常に利用可能な、継続的な、離散的なAI音声会話のための実用的なインターフェースの実現可能性を示している。
関連論文リスト
- Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models [51.7170633585748]
Stream-Voice-Anonは、ストリーミングスピーカーの匿名化に特化して、現代的なLMベースのNACアーキテクチャを適用している。
匿名化アプローチには、擬似話者表現サンプリング、話者埋め込みミキシング、多様なプロンプト選択戦略が組み込まれている。
VoicePrivacy 2024 Challengeプロトコルの下で、Stream-Voice-Anonは知性を大幅に改善した。
論文 参考訳(メタデータ) (2026-01-20T13:23:44Z) - WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables [46.73480840435705]
WearVoxは、現実的なウェアラブルシナリオで音声アシスタントを厳格に評価するために設計された最初のベンチマークである。
3,842のマルチチャンネル、エゴセントリックなオーディオ録音をAIメガネで5つのタスクで収集する。
我々は、プロプライエタリでオープンソースのLarge Language Models (SLLM) をベンチマークし、ほとんどのリアルタイムSLLMが29%から59%の精度を達成することを発見した。
論文 参考訳(メタデータ) (2025-12-25T06:39:21Z) - Beyond the Voice: Inertial Sensing of Mouth Motion for High Security Speech Verification [0.34998703934432673]
話者の下面のユニークな動きパターンと音響的証拠を組み合わせた第2の認証因子を提案する。
我々のシステムは、個人間で強い差別力を持つ、異なる動きのシグネチャを記録している。
音声認証システムにおいて、この第2の防衛線が明確なセキュリティ上の利点をもたらす、特定のユースケースについて論じる。
論文 参考訳(メタデータ) (2025-10-16T22:26:18Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Tiny Noise-Robust Voice Activity Detector for Voice Assistants [6.670095528106346]
背景雑音の存在下での音声活動検出(VAD)は、音声処理において難しい問題である。
本稿では,背景雑音に対処するデータ前処理および後処理モジュールを付加した軽量なVADを含むノイズローバストVADを提案する。
このアプローチはノイズの多い環境でのVAD精度を大幅に向上させ、より大きなモデルも微調整も必要としない。
論文 参考訳(メタデータ) (2025-07-29T18:44:43Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using
Deep Neural Networks [18.968402215723]
ユーザの無声発話を検出するシステムを提案する。
提案システムは,ユーザの発話音声を使わずに発話内容を認識する。
また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。
論文 参考訳(メタデータ) (2023-03-03T07:46:35Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。