Fugu-MT 論文翻訳(概要): Evaluating Speech-to-Text x LLM x Text-to-Speech Combinations for AI Interview Systems

論文の概要: Evaluating Speech-to-Text x LLM x Text-to-Speech Combinations for AI Interview Systems

arxiv url: http://arxiv.org/abs/2507.16835v1
Date: Tue, 15 Jul 2025 22:30:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-24 22:33:14.671311
Title: Evaluating Speech-to-Text x LLM x Text-to-Speech Combinations for AI Interview Systems
Title（参考訳）: AIインタビューシステムのための音声合成 x LLM x テキスト合成の評価
Authors: Nima Yazdani, Ali Ansari, Aruj Mahajan, Amirhossein Afsharrad, Seyed Shahabeddin Mousavi,
Abstract要約: 音声テキスト(STT)、大言語モデル(LLM)、テキスト音声コンポーネント(TTS)はますますカスケードアーキテクチャに依存している。 STT x LLM x TTSスタックの大規模比較を,30万人以上のAIによる求人面接のデータを用いて行った。 LLM-as-a-Judge を用いた自動評価フレームワークを開発し,会話の質,技術精度,スキル評価能力を評価する。
参考スコア（独自算出の注目度）: 0.62914438169038
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Voice-based conversational AI systems increasingly rely on cascaded architectures combining speech-to-text (STT), large language models (LLMs), and text-to-speech (TTS) components. However, systematic evaluation of different component combinations in production settings remains understudied. We present a large-scale empirical comparison of STT x LLM x TTS stacks using data from over 300,000 AI-conducted job interviews. We develop an automated evaluation framework using LLM-as-a-Judge to assess conversational quality, technical accuracy, and skill assessment capabilities. Our analysis of four production configurations reveals that Google STT paired with GPT-4.1 significantly outperforms alternatives in both conversational and technical quality metrics. Surprisingly, we find that objective quality metrics correlate weakly with user satisfaction scores, suggesting that user experience in voice-based AI systems depends on factors beyond technical performance. Our findings provide practical guidance for selecting components in multimodal conversational AI systems and contribute a validated evaluation methodology for voice-based interactions.
Abstract（参考訳）: 音声ベースの会話型AIシステムは、音声テキスト(STT)、大規模言語モデル(LLM)、テキスト音声(TTS)コンポーネントを組み合わせたカスケードアーキテクチャにますます依存している。しかし、生産環境における異なるコンポーネントの組み合わせの体系的評価は、まだ検討されていない。 STT x LLM x TTSスタックの大規模比較を,30万人以上のAIによる求人面接のデータを用いて行った。 LLM-as-a-Judge を用いた自動評価フレームワークを開発し,会話の質,技術精度,スキル評価能力を評価する。 4つの生産構成の分析から、Google STTとGPT-4.1の組み合わせは、会話および技術品質の指標において、選択肢を著しく上回っていることが明らかとなった。驚いたことに、客観的な品質指標はユーザの満足度スコアと弱い相関関係にあり、音声ベースのAIシステムにおけるユーザエクスペリエンスは、技術的パフォーマンス以上の要因に依存していることを示唆している。本研究は,マルチモーダル対話型AIシステムにおけるコンポーネント選択のための実践的ガイダンスを提供するとともに,音声による対話に対する評価手法の検証に寄与する。

関連論文リスト

WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文参考訳（メタデータ） (2025-06-27T03:18:45Z)
Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。 ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文参考訳（メタデータ） (2025-05-16T12:57:23Z)
VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。 VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-22T17:15:20Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-31T09:37:27Z)
TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。 2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文参考訳（メタデータ） (2024-07-17T16:30:27Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文参考訳（メタデータ） (2020-05-14T17:24:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。