論文の概要: Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction
- arxiv url: http://arxiv.org/abs/2602.24080v2
- Date: Mon, 02 Mar 2026 08:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:04.103906
- Title: Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction
- Title(参考訳): 人間か機械か? 音声と音声の対話のための予備的チューリングテスト
- Authors: Xiang Li, Jiabao Gao, Sipei Lin, Xuan Zhou, Chi Zhang, Bo Cheng, Jiale Han, Benyou Wang,
- Abstract要約: 我々はS2Sシステムの最初のチューリングテストを行い、9つの最先端S2Sシステムと28人の参加者の対話に関する2,968人の人的判断を収集した。
既存の評価されたS2Sシステムはテストに合格せず、人間の類似性に大きなギャップがあることが判明した。
我々は18の人間類似度次元の微粒な分類法を開発し、それに従って収集した対話をクラウドアノテートする。
- 参考スコア(独自算出の注目度): 32.28977425466535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of human-like conversational agents has long been guided by the Turing test. For modern speech-to-speech (S2S) systems, a critical yet unanswered question is whether they can converse like humans. To tackle this, we conduct the first Turing test for S2S systems, collecting 2,968 human judgments on dialogues between 9 state-of-the-art S2S systems and 28 human participants. Our results deliver a clear finding: no existing evaluated S2S system passes the test, revealing a significant gap in human-likeness. To diagnose this failure, we develop a fine-grained taxonomy of 18 human-likeness dimensions and crowd-annotate our collected dialogues accordingly. Our analysis shows that the bottleneck is not semantic understanding but stems from paralinguistic features, emotional expressivity, and conversational persona. Furthermore, we find that off-the-shelf AI models perform unreliably as Turing test judges. In response, we propose an interpretable model that leverages the fine-grained human-likeness ratings and delivers accurate and transparent human-vs-machine discrimination, offering a powerful tool for automatic human-likeness evaluation. Our work establishes the first human-likeness evaluation for S2S systems and moves beyond binary outcomes to enable detailed diagnostic insights, paving the way for human-like improvements in conversational AI systems.
- Abstract(参考訳): 人間のような会話エージェントの追求は、チューリング試験によって長い間導かれてきた。
現代の音声合成システム(S2S)では、人間のように会話できるかどうかが重要な疑問である。
そこで我々は,9つの最先端S2Sシステムと28人の参加者の対話に関する2,968人の人的判断を収集し,S2Sシステムの最初のチューリングテストを実施した。
既存の評価されたS2Sシステムは、試験に合格せず、人間の類似性に大きなギャップがあることが判明した。
この失敗を診断するために、我々は18の人間類似性次元のきめ細かい分類法を開発し、それに従って収集した対話をクラウドアノテートする。
分析の結果、ボトルネックは意味的理解ではなく、パラ言語的特徴、感情的表現力、会話的ペルソナに起因していることがわかった。
さらに、市販のAIモデルはチューリングテストの審査員として信頼性が低いことが判明した。
そこで本研究では,人間の細粒度評価を活用し,高精度かつ透明な人間-vs-機械識別を実現するための解釈可能なモデルを提案する。
我々の研究は、S2Sシステムに対する最初のヒューマンライクネス評価を確立し、バイナリ結果を超えて詳細な診断洞察を可能にし、対話型AIシステムにおけるヒューマンライクな改善の道を開く。
関連論文リスト
- Stephanie2: Thinking, Waiting, and Making Decisions Like Humans in Step-by-Step AI Social Chat [60.51107098103245]
Stephanie2は、次世代のステップワイド意思決定対話エージェントである。
Stephanie2は、アクティブな待機とメッセージペースの適応によって、各ステップで送信と待機を明示的に決定する。
実験によると、Stephanie2は自然さやエンゲージメントなどの指標で明らかにStephanie1を上回っている。
論文 参考訳(メタデータ) (2026-01-09T09:27:17Z) - The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era [95.35748535806744]
我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。
本稿では,データセット,トラック構成,最終結果について概説する。
論文 参考訳(メタデータ) (2026-01-09T06:32:30Z) - ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文 参考訳(メタデータ) (2025-03-11T15:24:02Z) - Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind [51.45478233267092]
認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in
Dialog Systems [64.10696852552103]
非常に人為的な反応は、ユーザーが人間と対話していると考えることを不快に、あるいは暗黙的に騙すかもしれない。
9つの異なるデータソースからサンプリングした約900の2ターンダイアログの実現可能性に関する人間の評価を収集する。
論文 参考訳(メタデータ) (2022-10-22T12:10:44Z) - The R-U-A-Robot Dataset: Helping Avoid Chatbot Deception by Detecting
User Questions About Human or Non-Human Identity [41.43519695929595]
システムデザイナがシステムに対して,その人間以外のアイデンティティを確認できるようにする方法を理解することを目的としている。
ロボットの意図にまつわる2500以上のフレーズを集めていますか?
分類器を比較して、意図を認識し、精度/リコールとモデルの複雑さのトレードオフについて議論する。
論文 参考訳(メタデータ) (2021-06-04T20:04:33Z) - Can you hear me $\textit{now}$? Sensitive comparisons of human and
machine perception [3.8580784887142774]
我々は、この非対称性が、人間と機械の知覚の重なり合いを誤って推定する比較をいかに引き起こすかを探る。
5つの実験において、人間の心理物理学文献のタスクデザインを適用し、被験者がそのような音声コマンドを自由に書き起こせない場合でも、他の形態の理解を示せることを示す。
我々は、人間と機械の知覚を比較する際に、このような「敏感なテスト」を採用することを推奨する。
論文 参考訳(メタデータ) (2020-03-27T16:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。