論文の概要: Automated Survey Collection with LLM-based Conversational Agents
- arxiv url: http://arxiv.org/abs/2504.02891v1
- Date: Wed, 02 Apr 2025 18:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:45.826166
- Title: Automated Survey Collection with LLM-based Conversational Agents
- Title(参考訳): LLMを用いた対話エージェントを用いた自動サーベイコレクション
- Authors: Kurmanbek Kaiyrbekov, Nicholas J Dobbins, Sean D Mooney,
- Abstract要約: 従来の電話ベースの調査は、バイオメディカルおよび医療データを収集するための最もアクセスしやすく広く使われている方法の1つである。
対話型大規模言語モデル(LLM)によるエンドツーエンド調査収集フレームワークを提案する。
本フレームワークは,調査参加者を設計・募集する研究者と,参加者を呼び出して実施するLLMを利用した会話電話エージェントと,調査中に生成された会話の書き起こしを解析する第2のLLMと,結果を保存・整理するデータベースから構成される。
- 参考スコア(独自算出の注目度): 1.9915268274949234
- License:
- Abstract: Objective: Traditional phone-based surveys are among the most accessible and widely used methods to collect biomedical and healthcare data, however, they are often costly, labor intensive, and difficult to scale effectively. To overcome these limitations, we propose an end-to-end survey collection framework driven by conversational Large Language Models (LLMs). Materials and Methods: Our framework consists of a researcher responsible for designing the survey and recruiting participants, a conversational phone agent powered by an LLM that calls participants and administers the survey, a second LLM (GPT-4o) that analyzes the conversation transcripts generated during the surveys, and a database for storing and organizing the results. To test our framework, we recruited 8 participants consisting of 5 native and 3 non-native english speakers and administered 40 surveys. We evaluated the correctness of LLM-generated conversation transcripts, accuracy of survey responses inferred by GPT-4o and overall participant experience. Results: Survey responses were successfully extracted by GPT-4o from conversation transcripts with an average accuracy of 98% despite transcripts exhibiting an average per-line word error rate of 7.7%. While participants noted occasional errors made by the conversational LLM agent, they reported that the agent effectively conveyed the purpose of the survey, demonstrated good comprehension, and maintained an engaging interaction. Conclusions: Our study highlights the potential of LLM agents in conducting and analyzing phone surveys for healthcare applications. By reducing the workload on human interviewers and offering a scalable solution, this approach paves the way for real-world, end-to-end AI-powered phone survey collection systems.
- Abstract(参考訳): 目的: 従来の電話ベースの調査は、バイオメディカルおよび医療データを収集するのに最もアクセスしやすく広く使われている方法の1つだが、コストがかかり、労働集約的で、効果的にスケールすることが難しい。
これらの制約を克服するため,対話型大規模言語モデル(LLM)によるエンドツーエンド調査収集フレームワークを提案する。
資料と方法:本フレームワークは,参加者を設計・募集する研究者と,参加者を呼び出して実施するLLMを活用した会話電話エージェントと,調査中に生成された会話書を解析する第2のLLM(GPT-4o)と,結果の保存と整理を行うデータベースから構成される。
フレームワークをテストするために,5人のネイティブと3人の非ネイティブの英語話者からなる8人の参加者を募集し,40回の調査を行った。
GPT-4oによるLLM生成会話書き起こしの正確さ, GPT-4oによる回答の正確さ, 参加者全体の経験について検討した。
結果:1行平均単語誤り率7.7%にもかかわらず,会話書き起こしからGPT-4oを平均98%の精度で抽出した。
参加者は会話型LLMエージェントによる時折の誤りに気付く一方で、エージェントが調査の目的を効果的に伝え、良好な理解を示し、活発な相互作用を維持したことを報告した。
結論:本研究は,医療アプリケーションにおける電話調査の実施と分析におけるLLMエージェントの可能性を明らかにするものである。
人間のインタビュアーの作業量を削減し、スケーラブルなソリューションを提供することで、このアプローチは、現実のエンドツーエンドのAIによる電話調査システムへの道を開く。
関連論文リスト
- GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing [73.8469700907927]
大規模言語モデル(LLM)は、指示の追従や質問応答といった人間の指導による会話に成功している。
本研究では, LLM誘導会話を, ゴールナビゲーション, (ii) コンテキストマネジメント, (iii) 共感エンゲージメントの3つの基本要素に分類した。
GPT-4o や Llama-3-70b-Instruct のような6つの最先端 LLM と比較し, 面接品質, 自伝生成品質の観点から検討した。
論文 参考訳(メタデータ) (2025-02-10T14:11:32Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning [43.82613670331329]
本研究では,オープンソースの言語モデルを用いて,政治的書き起こしからチェックにふさわしい文章を識別する手法について検討する。
本稿では,高品質なトレーニングデータインスタンスを自動的に同定し,効果的な学習を行うための2段階のデータ解析手法を提案する。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
論文 参考訳(メタデータ) (2024-06-26T12:31:31Z) - Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Is ChatGPT a Good Multi-Party Conversation Solver? [42.939861319863795]
大規模言語モデル (LLM) は自然言語処理の領域において影響力のある道具として出現している。
本稿では,多人数会話におけるLLM生成の可能性について検討する。
実験により,ChatGPTとGPT-4のゼロショット学習能力を評価する。
論文 参考訳(メタデータ) (2023-10-25T02:18:40Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。