論文の概要: Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts
- arxiv url: http://arxiv.org/abs/2509.01814v1
- Date: Mon, 01 Sep 2025 22:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.854912
- Title: Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts
- Title(参考訳): マイクドロップとデータフロップ : 定量的・質的研究文脈におけるデータ収集のためのAI音声インタビュアーの適性評価
- Authors: Shreyas Tirumala, Nishant Jain, Danny D. Leybzon, Trent D. Buskirk,
- Abstract要約: Transformer-based Large Language Models (LLMs) は、音声ベースの調査をリアルタイムで実施できる「AIインタビュアー」の道を開いた。
我々は,AIインタビュアーと,2次元にわたる現在の対話型音声応答(Interactive Voice Response, IVR)システムの性能を評価する。
- 参考スコア(独自算出の注目度): 7.938565669618949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Large Language Models (LLMs) have paved the way for "AI interviewers" that can administer voice-based surveys with respondents in real-time. This position paper reviews emerging evidence to understand when such AI interviewing systems are fit for purpose for collecting data within quantitative and qualitative research contexts. We evaluate the capabilities of AI interviewers as well as current Interactive Voice Response (IVR) systems across two dimensions: input/output performance (i.e., speech recognition, answer recording, emotion handling) and verbal reasoning (i.e., ability to probe, clarify, and handle branching logic). Field studies suggest that AI interviewers already exceed IVR capabilities for both quantitative and qualitative data collection, but real-time transcription error rates, limited emotion detection abilities, and uneven follow-up quality indicate that the utility, use and adoption of current AI interviewer technology may be context-dependent for qualitative data collection efforts.
- Abstract(参考訳): Transformer-based Large Language Models (LLMs) は、音声ベースの調査をリアルタイムで実施できる「AIインタビュアー」の道を開いた。
本稿では,このようなAI面接システムが,定量的かつ質的な研究コンテキスト内でのデータ収集に適しているかを理解するために,新たなエビデンスをレビューする。
我々は,AIインタビュアーの能力と,入力/出力性能(音声認識,応答記録,感情処理)と言語推論(探索,明確化,分岐論理の処理)の2次元にわたる現在の対話型音声応答(IVR)システムを評価する。
フィールドスタディでは、AIインタビュアーは、定量データ収集と定性的データ収集の両方でIVR能力を超えているが、リアルタイムの書き起こしエラー率、限られた感情検出能力、そして不均一なフォローアップ品質は、現在のAIインタビュアー技術の有用性、利用、採用が質的データ収集の取り組みにコンテキスト依存していることを示している。
関連論文リスト
- AI Telephone Surveying: Automating Quantitative Data Collection with an AI Interviewer [1.8929175690169533]
我々は、大規模言語モデル(LLM)、自動音声認識(ASR)、音声合成技術に基づく定量的調査を行うAIシステムを構築し、テストした。
このシステムは定量的研究のために特別に設計され、質問順のランダム化、回答順のランダム化、正確な単語化といった研究のベストプラクティスに厳格に固執した。
以上の結果から,より短い計器とより応答性の高いAIインタビュアーが,研究対象の3つの指標にまたがる改善に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-23T17:30:14Z) - Telephone Surveys Meet Conversational AI: Evaluating a LLM-Based Telephone Survey System at Scale [0.0]
テキスト音声(TTS)、大言語モデル(LLM)、音声音声(STT)を統合したAIによる電話調査システムを提案する。
米国におけるパイロットスタディ (n = 75) とペルーにおける大規模展開 (n = 2,739) の2つの集団でテストを行った。
以上の結果から,AIシステムの質的深度探索は人間のインタビュアーよりも限定的であったが,全体的なデータ品質は構造化項目の人間主導の基準に近づいた。
論文 参考訳(メタデータ) (2025-02-27T14:31:42Z) - AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers [40.80290002598963]
本研究では,人間のインタビュアーを大規模言語モデル (LLM) に置き換えて,スケーラブルな対話型インタビュアーを実現する可能性について検討する。
大学生を対象に,AIやヒューマンインタビュアーによる会話面接にランダムに割り当てられた,小規模かつ詳細な調査を行った。
様々な量的・質的な尺度は, インタビュアーのガイドライン, 応答品質, 参加者参加率, 総合的な面接効果に順応した。
論文 参考訳(メタデータ) (2024-09-16T16:03:08Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - InterviewBot: Real-Time End-to-End Dialogue System to Interview Students
for College Admission [18.630848902825406]
InterviewBotは会話履歴とカスタマイズされたトピックをコヒーレントな埋め込みスペースに統合する。
7,361件の人間対人間インタビューの音声録音を自動転写し、440件を手作業で微調整・評価する。
InterviewBotは、その回答をインタビューデータと比較することで統計的にテストし、プロのインタビュアーや様々な学生にリアルタイムで対話させることによって動的にテストする。
論文 参考訳(メタデータ) (2023-03-27T09:46:56Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。