論文の概要: WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables
- arxiv url: http://arxiv.org/abs/2601.02391v1
- Date: Thu, 25 Dec 2025 06:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.566664
- Title: WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables
- Title(参考訳): WearVox:ウェアラブル向けマルチチャネル音声アシスタントベンチマーク
- Authors: Zhaojiang Lin, Yong Xu, Kai Sun, Jing Zheng, Yin Huang, Surya Teja Appini, Krish Narang, Renjie Tao, Ishan Kapil Jain, Siddhant Arora, Ruizhi Li, Yiteng Huang, Kaushik Patnaik, Wenfang Xu, Suwon Shon, Yue Liu, Ahmed A Aly, Anuj Kumar, Florian Metze, Xin Luna Dong,
- Abstract要約: WearVoxは、現実的なウェアラブルシナリオで音声アシスタントを厳格に評価するために設計された最初のベンチマークである。
3,842のマルチチャンネル、エゴセントリックなオーディオ録音をAIメガネで5つのタスクで収集する。
我々は、プロプライエタリでオープンソースのLarge Language Models (SLLM) をベンチマークし、ほとんどのリアルタイムSLLMが29%から59%の精度を達成することを発見した。
- 参考スコア(独自算出の注目度): 46.73480840435705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wearable devices such as AI glasses are transforming voice assistants into always-available, hands-free collaborators that integrate seamlessly with daily life, but they also introduce challenges like egocentric audio affected by motion and noise, rapid micro-interactions, and the need to distinguish device-directed speech from background conversations. Existing benchmarks largely overlook these complexities, focusing instead on clean or generic conversational audio. To bridge this gap, we present WearVox, the first benchmark designed to rigorously evaluate voice assistants in realistic wearable scenarios. WearVox comprises 3,842 multi-channel, egocentric audio recordings collected via AI glasses across five diverse tasks including Search-Grounded QA, Closed-Book QA, Side-Talk Rejection, Tool Calling, and Speech Translation, spanning a wide range of indoor and outdoor environments and acoustic conditions. Each recording is accompanied by rich metadata, enabling nuanced analysis of model performance under real-world constraints. We benchmark leading proprietary and open-source speech Large Language Models (SLLMs) and find that most real-time SLLMs achieve accuracies on WearVox ranging from 29% to 59%, with substantial performance degradation on noisy outdoor audio, underscoring the difficulty and realism of the benchmark. Additionally, we conduct a case study with two new SLLMs that perform inference with single-channel and multi-channel audio, demonstrating that multi-channel audio inputs significantly enhance model robustness to environmental noise and improve discrimination between device-directed and background speech. Our results highlight the critical importance of spatial audio cues for context-aware voice assistants and establish WearVox as a comprehensive testbed for advancing wearable voice AI research.
- Abstract(参考訳): AIメガネのようなウェアラブルデバイスは、音声アシスタントを常時利用でき、日常の生活とシームレスに統合するハンズフリーのコラボレータに変貌させていますが、動きやノイズに影響されたエゴセントリックなオーディオ、迅速なマイクロインタラクション、デバイス指向の音声とバックグラウンドの会話を区別する必要性といった課題も導入しています。
既存のベンチマークはこれらの複雑さを概ね見落としており、代わりにクリーンまたはジェネリックな会話音声に焦点を当てている。
このギャップを埋めるために、私たちは、現実的なウェアラブルシナリオで音声アシスタントを厳格に評価するために設計された最初のベンチマークであるWearVoxを紹介します。
WearVoxには3,842のマルチチャネルがあり、AIグラス経由で収集されたエゴセントリックなオーディオ録音は、検索・グラウンドドQA、クローズドブックQA、サイドトーク・リジェクション、ツール呼び出し、音声翻訳の5つのタスクにまたがっている。
それぞれの記録には豊富なメタデータが伴い、実際の制約下でのモデルパフォーマンスのニュアンス解析を可能にする。
我々は、プロプライエタリでオープンソースの言語モデル(SLLM)をベンチマークし、ほとんどのリアルタイムSLLMが、29%から59%の範囲でWearVoxの精度を達成していることを確認した。
さらに,マルチチャンネル音声入力が環境騒音に対するモデルロバスト性を著しく向上させ,デバイス指向音声とバックグラウンド音声の識別を改善することを示し,シングルチャンネル音声とマルチチャンネル音声の推論を行う2つの新しいSLLMを用いてケーススタディを行う。
本研究は,文脈対応音声アシスタントにおける空間音声キューの重要性を強調し,ウェアラブル音声AI研究を進展させるための総合的なテストベッドとしてWearVoxを確立した。
関連論文リスト
- Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing [45.15289852736435]
VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
実用性を示すため,21のオープンソースモデルとGPT-4o-Audioを評価した。
プロプライエタリなモデルは、オープンソースモデルより普遍的に優れているわけではない。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments [43.05826988957987]
我々は、ARメガネ着用者の会話を改善するアルゴリズムのトレーニングとテストに有用な5時間以上のマルチモーダルデータを含むデータセットをリリースする。
ベースライン法に対して,音声の可聴性,品質,信号対雑音比の改善結果を提供し,全試験指標に比較して改善を示す。
論文 参考訳(メタデータ) (2021-07-09T02:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。