論文の概要: Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface
- arxiv url: http://arxiv.org/abs/2601.15209v1
- Date: Wed, 21 Jan 2026 17:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.478599
- Title: Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface
- Title(参考訳): インテリジェントパーソナルアシスタントへの難聴と難聴:LLM対応タッチインタフェースによる音声ベースの選択肢の比較
- Authors: Paige S. DeVries, Michaela Okosi, Ming Li, Nora Dunphy. Gidey Gezae, Dante Conway, Abraham Glasser, Raja Kushalnagar, Christian Vogler,
- Abstract要約: 難聴者および難聴者に対する知的パーソナルアシスタント(IPA)のアクセシビリティについて検討した。
難聴音声を含む多様なアクセントを理解できないため、非署名や話し言葉のDHH個人にはほとんどアクセスできない。
- 参考スコア(独自算出の注目度): 8.26824939874305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate intelligent personal assistants (IPAs) accessibility for deaf and hard of hearing (DHH) people who can use their voice in everyday communication. The inability of IPAs to understand diverse accents including deaf speech renders them largely inaccessible to non-signing and speaking DHH individuals. Using an Echo Show, we compare the usability of natural language input via spoken English; with Alexa's automatic speech recognition and a Wizard-of-Oz setting with a trained facilitator re-speaking commands against that of a large language model (LLM)-assisted touch interface in a mixed-methods study. The touch method was navigated through an LLM-powered "task prompter," which integrated the user's history and smart environment to suggest contextually-appropriate commands. Quantitative results showed no significant differences across both spoken English conditions vs LLM-assisted touch. Qualitative results showed variability in opinions on the usability of each method. Ultimately, it will be necessary to have robust deaf-accented speech recognized natively by IPAs.
- Abstract(参考訳): 日常のコミュニケーションで音声を利用できる難聴者や難聴者に対する知的パーソナルアシスタント(IPA)アクセシビリティについて検討した。
難聴音声を含む多様なアクセントを理解できないため、非署名や話し言葉のDHH個人にはほとんどアクセスできない。
Alexaの自動音声認識とWizard-of-Oz設定と、大規模言語モデル(LLM)によるタッチインターフェースに対する訓練されたファシリテータの再言語コマンドとを比較した。
タッチ方式はLLMで操作された「タスクプロンプト」を通じて操作され、ユーザの履歴とスマート環境を統合してコンテキストに合ったコマンドを提案する。
比較検討の結果,LLMによる触覚と英語の両条件で有意差は認められなかった。
質的な結果から,各手法のユーザビリティに対する意見の相違が認められた。
最終的に、IPAによってネイティブに認識される頑健な聴覚障害者の発話が必要である。
関連論文リスト
- From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach [0.0]
本稿では,変圧器をベースとした音響モデルと,後処理のための大規模言語モデル(LLM)を組み合わせた音声認識フレームワークを提案する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
論文 参考訳(メタデータ) (2025-09-02T16:13:29Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Real-Time Sign Language Gestures to Speech Transcription using Deep Learning [0.0]
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。
Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
論文 参考訳(メタデータ) (2025-08-18T08:25:18Z) - SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication [9.812902134556971]
Speak Easeは、ユーザの表現性をサポートするための拡張的で代替的なコミュニケーションシステムである。
システムは、テキスト、音声、文脈の手がかりを含むマルチモーダル入力を、大きな言語モデルと統合する。
論文 参考訳(メタデータ) (2025-03-21T18:50:05Z) - VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。
VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。
大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-22T17:15:20Z) - Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - See what I'm saying? Comparing Intelligent Personal Assistant use for
Native and Non-Native Language Speakers [12.021912017203842]
IPAが現在どのようにユーザをサポートするか、あるいは妨げているかを理解することを目的としています。
インタビューの結果,L2話者は言語的制限に対する発話計画に優先していたことが明らかとなった。
L2話者はIPAを言語的ニーズに敏感であるとみなし、相互作用が失敗する。
我々は,言語生産の負担を軽減しつつ,視覚的フィードバックを重視しながら,L2ユーザのためのIPA体験をカスタマイズする必要性について論じる。
論文 参考訳(メタデータ) (2020-06-11T11:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。