論文の概要: Moravec's Paradox: Towards an Auditory Turing Test
- arxiv url: http://arxiv.org/abs/2507.23091v1
- Date: Wed, 30 Jul 2025 20:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.724105
- Title: Moravec's Paradox: Towards an Auditory Turing Test
- Title(参考訳): Moravecのパラドックス:聴覚チューリングテストに向けて
- Authors: David Noever, Forrest McKee,
- Abstract要約: この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。
重なり合う音声,音声の雑音,時間的歪み,空間音声,コーヒーショップノイズ,電話の歪み,知覚錯覚の7つのカテゴリーにまたがる917の課題を含む聴覚チューリングテストを導入する。
GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では,93%を超える顕著な故障率を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This research work demonstrates that current AI systems fail catastrophically on auditory tasks that humans perform effortlessly. Drawing inspiration from Moravec's paradox (i.e., tasks simple for humans often prove difficult for machines, and vice versa), we introduce an auditory Turing test comprising 917 challenges across seven categories: overlapping speech, speech in noise, temporal distortion, spatial audio, coffee-shop noise, phone distortion, and perceptual illusions. Our evaluation of state-of-the-art audio models including GPT-4's audio capabilities and OpenAI's Whisper reveals a striking failure rate exceeding 93%, with even the best-performing model achieving only 6.9% accuracy on tasks that humans solved at 7.5 times higher success (52%). These results expose focusing failures in how AI systems process complex auditory scenes, particularly in selective attention, noise robustness, and contextual adaptation. Our benchmark not only quantifies the human-machine auditory gap but also provides insights into why these failures occur, suggesting that current architectures lack fundamental mechanisms for human-like auditory scene analysis. The traditional design of audio CAPTCHAs highlights common filters that humans evolved but machines fail to select in multimodal language models. This work establishes a diagnostic framework for measuring progress toward human-level machine listening and highlights the need for novel approaches integrating selective attention, physics-based audio understanding, and context-aware perception into multimodal AI systems.
- Abstract(参考訳): この研究は、現在のAIシステムが、人間が力ずくで行う聴覚的タスクで破滅的に失敗することを示しています。
モーラベックのパラドックスからインスピレーションを得た(つまり、人間にとって簡単なタスクは機械にとって難しいことがしばしばあり、その逆もまた)。我々は、音声の重なり合い、雑音の音声、時間的歪み、空間音声、コーヒーショップノイズ、電話の歪み、知覚錯覚の7つのカテゴリにまたがる917の課題を含む聴覚チューリングテストを導入する。
GPT-4の音声機能やOpenAIのWhisperを含む最先端オーディオモデルの評価では、最高のパフォーマンスモデルでさえ、7.5倍の精度(52%)で解決されたタスクに対してわずか6.9%の精度しか達成できないという顕著な失敗率を示した。
これらの結果は、AIシステムが複雑な聴覚シーンをどのように処理するか、特に選択的注意、ノイズロバスト性、文脈適応において焦点を絞った失敗を浮き彫りにする。
本ベンチマークでは, 人間の聴覚的ギャップの定量化だけでなく, これらの障害の発生要因を考察し, 現状の建築には人間のような聴覚シーン解析の基本メカニズムが欠如していることが示唆された。
従来のオーディオCAPTCHAの設計では、人間が進化した一般的なフィルタが強調されるが、マシンはマルチモーダル言語モデルでは選択できない。
この研究は、人間レベルのマシンリスニングに向けた進捗を測定するための診断フレームワークを確立し、選択された注意、物理ベースの音声理解、コンテキスト認識をマルチモーダルAIシステムに統合する新しいアプローチの必要性を強調している。
関連論文リスト
- Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [58.80034860169605]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文 参考訳(メタデータ) (2025-07-24T07:56:24Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization [9.726581483075938]
人間はAIを一貫して上回り、聴覚情報に頼ることによって、対立や欠落した視覚に対して優れたレジリエンスを示す。
3次元シミュレーションによって生成されたステレオオーディオ画像データセットを用いて最先端モデルを微調整する。
論文 参考訳(メタデータ) (2025-05-16T13:13:25Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response [14.604998731837595]
我々は,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを開発した。
PITCHの課題は、マシン検出能力を88.7%のAUROCスコアに向上させた。
疑わしい通話を「ディープフェイク風」とタグ付けする新しい人間とAI協調システムを開発した。
論文 参考訳(メタデータ) (2024-02-28T06:17:55Z) - Nonverbal Sound Detection for Disordered Speech [24.636175845214822]
15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2022-02-15T22:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。