論文の概要: Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications
- arxiv url: http://arxiv.org/abs/2508.17753v1
- Date: Mon, 25 Aug 2025 07:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.679069
- Title: Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications
- Title(参考訳): ロボットとの対話:HRI応用のための音声基礎モデルの実践的検討
- Authors: Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter,
- Abstract要約: 人間-ロボット相互作用(HRI)では、これらの課題が相互に交わり、独特な挑戦的な認識環境を作り出す。
我々は,6次元の難易度をキャプチャする8つの公開データセット上で,最先端のASRシステム4つを評価する。
我々の分析は、標準ベンチマークに類似のスコアがあるにもかかわらず、性能、幻覚傾向、および固有のバイアスに有意なばらつきを示す。
- 参考スコア(独自算出の注目度): 7.943770437477042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impaired, and spontaneous speech. Our analysis demonstrates significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety.
- Abstract(参考訳): 現実の環境での自動音声認識(ASR)システムは、様々なユーザーグループを収容しながら、ハードウェアの制限や環境騒音によって劣化する不完全なオーディオを扱う必要がある。
人間-ロボット相互作用(HRI)では、これらの課題が相互に交わり、独特な挑戦的な認識環境を作り出す。
我々は,ドメイン固有,アクセント付き,ノイズの多い,年齢変化,障害のある,自然発話の6次元の難易度を捉える8つの公開データセットを用いて,最先端のASRシステムの評価を行った。
我々の分析は、標準ベンチマークに類似のスコアがあるにもかかわらず、性能、幻覚傾向、および固有のバイアスに有意なばらつきを示す。
これらの制限は、認識エラーがタスクパフォーマンス、ユーザ信頼、安全性に干渉するHRIに深刻な影響を及ぼす。
関連論文リスト
- Moravec's Paradox: Towards an Auditory Turing Test [0.0]
この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。
重なり合う音声,音声の雑音,時間的歪み,空間音声,コーヒーショップノイズ,電話の歪み,知覚錯覚の7つのカテゴリーにまたがる917の課題を含む聴覚チューリングテストを導入する。
GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では,93%を超える顕著な故障率を示した。
論文 参考訳(メタデータ) (2025-07-30T20:45:13Z) - Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [58.80034860169605]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文 参考訳(メタデータ) (2025-07-24T07:56:24Z) - BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition [0.5224038339798622]
本稿では,B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) データセットを提案する。
データセットには、地域のアクセントと非ネイティブアクセントの異なる98人のアクターから約4時間の英会話が含まれている。
ASRタスクとSERタスクの初期ベンチマークを行い、ASRは距離とシャウトレベルの増大とともに劣化し、意図した感情に応じて様々なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-04-30T14:08:14Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文 参考訳(メタデータ) (2024-05-10T00:16:58Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。