論文の概要: SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality
- arxiv url: http://arxiv.org/abs/2602.00793v1
- Date: Sat, 31 Jan 2026 16:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.405157
- Title: SpeechLess: Micro-utterance with Personalized Spatial Memory-aware Assistant in Everyday Augmented Reality
- Title(参考訳): SpeechLess: 日々の拡張現実における個人化空間記憶認識アシスタントによるマイクロ発話
- Authors: Yoonsang Kim, Devshree Jadeja, Divyansh Pradhan, Yalong Yang, Arie Kaufman,
- Abstract要約: SpeechLessは、パーソナライズされた空間記憶を基盤とした音声ベースの意図制御パラダイムを導入するウェアラブルARアシスタントである。
以上の結果から,SpeechLessは日常的な情報アクセスの向上,調音努力の削減,社会的に許容できる使用支援を,多様な日常生活環境において知覚されたユーザビリティや意図決定の精度を著しく低下させることなく実現できることが示唆された。
- 参考スコア(独自算出の注目度): 6.523396381538382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaking aloud to a wearable AR assistant in public can be socially awkward, and re-articulating the same requests every day creates unnecessary effort. We present SpeechLess, a wearable AR assistant that introduces a speech-based intent granularity control paradigm grounded in personalized spatial memory. SpeechLess helps users "speak less," while still obtaining the information they need, and supports gradual explicitation of intent when more complex expression is required. SpeechLess binds prior interactions to multimodal personal context-space, time, activity, and referents-to form spatial memories, and leverages them to extrapolate missing intent dimensions from under-specified user queries. This enables users to dynamically adjust how explicitly they express their informational needs, from full-utterance to micro/zero-utterance interaction. We motivate our design through a week-long formative study using a commercial smart glasses platform, revealing discomfort with public voice use, frustration with repetitive speech, and hardware constraints. Building on these insights, we design SpeechLess, and evaluate it through controlled lab and in-the-wild studies. Our results indicate that regulated speech-based interaction, can improve everyday information access, reduce articulation effort, and support socially acceptable use without substantially degrading perceived usability or intent resolution accuracy across diverse everyday environments.
- Abstract(参考訳): 公共の場でウェアラブルARアシスタントに話しかけることは、社会的にぎこちなく、同じ要求を毎日再認識することは、余計な努力を生んでいる。
本稿では,パーソナライズされた空間記憶を基盤とした音声に基づく意図的粒度制御パラダイムを導入する,ウェアラブルARアシスタントであるSpeechLessを紹介する。
SpeechLessは,ユーザが必要な情報を引き続き取得しながら,より複雑な表現が必要な場合には,インテントの段階的明示をサポートする。
SpeechLessは、事前のインタラクションをマルチモーダルなコンテキスト空間、時間、アクティビティ、参照と結び付けて空間記憶を形成し、不特定ユーザクエリから欠落する意図次元を外挿する。
これにより、ユーザーは、全発話からマイクロ・ゼロ発話のインタラクションまで、情報的ニーズをいかに明示的に表現するかを動的に調整できる。
私たちは、商用スマートグラスプラットフォームを使った1週間にわたるフォーマティブな研究を通じて、パブリックな音声使用に対する不快感、繰り返しスピーチによるフラストレーション、ハードウェアの制約を明らかにすることで、デザインを動機付けています。
これらの知見に基づいて、我々はSpeechLessを設計し、制御された実験室とその内の研究を通して評価する。
本研究は, 音声による対話を規制し, 日常的な情報アクセスの向上, 調音努力の削減, 社会的に許容できる使用支援を実現し, 多様な日常生活環境におけるユーザビリティや意図決定の精度を著しく低下させることなく実現可能であることを示す。
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Spatial Audio Processing with Large Language Model on Wearable Devices [6.345647878712574]
空間的音声理解を大規模言語モデル(LLM)に組み込んだ新しいシステムアーキテクチャを提案する。
SINGは空間認識自動音声認識(ASR)をサポートし、単語誤り率(WER)5.3の既存の作業における88.52円の中央値エラーと比較して平均誤差が25.72円$-で大幅に改善されている。
例えば、最大5人まで、DoAエラーの中央値は16ドル(約1万2000円)と見積もっている。
論文 参考訳(メタデータ) (2025-04-11T18:19:59Z) - Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。
実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T14:15:55Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Augmented Conversation with Embedded Speech-Driven On-the-Fly Referencing in AR [16.50212867051533]
本稿では,拡張会話の概念を紹介する。
拡張現実(AR)における組込み音声駆動型オンザフライ会議による共同会話を支援することを目的とする。
論文 参考訳(メタデータ) (2024-05-28T19:10:47Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - LipLearner: Customizable Silent Speech Interactions on Mobile Devices [15.445920726854595]
コントラスト学習を活用して効率の良いリップリーディング表現を学習し、最小限のユーザ労力で数ショットのコマンドのカスタマイズを可能にします。
本モデルでは, 照明, 姿勢, ジェスチャー条件に高いロバスト性を示す。
ユーザスタディでは、LipLearnerを使うことで、オンラインのインクリメンタル学習スキームによって保証された高い信頼性で、独自のコマンドを定義できるようになった。
論文 参考訳(メタデータ) (2023-02-12T13:10:57Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。