論文の概要: Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions
- arxiv url: http://arxiv.org/abs/2311.12707v2
- Date: Sat, 6 Jul 2024 22:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 03:18:28.498332
- Title: Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions
- Title(参考訳): 同じ質問紙の繰り返し実施時における利用者の意識維持--大規模言語モデルを用いて質問を確実に多様化させる
- Authors: Hye Sun Yun, Mehdi Arjmand, Phillip Sherlock, Michael K. Paasche-Orlow, James W. Griffith, Timothy Bickmore,
- Abstract要約: 仮想エージェント管理アンケートの繰り返し使用は、応答性疲労を引き起こす可能性がある。
本研究では,大規模言語モデル (LLM) を用いて多様なアンケートモデルを作成することを提案する。
- 参考スコア(独自算出の注目度): 2.657841934326794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standardized, validated questionnaires are vital tools in research and healthcare, offering dependable self-report data. Prior work has revealed that virtual agent-administered questionnaires are almost equivalent to self-administered ones in an electronic form. Despite being an engaging method, repeated use of virtual agent-administered questionnaires in longitudinal or pre-post studies can induce respondent fatigue, impacting data quality via response biases and decreased response rates. We propose using large language models (LLMs) to generate diverse questionnaire versions while retaining good psychometric properties. In a longitudinal study, participants interacted with our agent system and responded daily for two weeks to one of the following questionnaires: a standardized depression questionnaire, question variants generated by LLMs, or question variants accompanied by LLM-generated small talk. The responses were compared to a validated depression questionnaire. Psychometric testing revealed consistent covariation between the external criterion and focal measure administered across the three conditions, demonstrating the reliability and validity of the LLM-generated variants. Participants found that the variants were significantly less repetitive than repeated administrations of the same standardized questionnaire. Our findings highlight the potential of LLM-generated variants to invigorate agent-administered questionnaires and foster engagement and interest, without compromising their validity.
- Abstract(参考訳): 標準化された、検証されたアンケートは、研究と医療において重要なツールであり、信頼できる自己申告データを提供する。
先行研究により、仮想エージェント管理アンケートは電子形式で自己管理アンケートとほぼ同等であることが判明した。
エンゲージメント手法であるにもかかわらず、縦・前後研究における仮想エージェント管理アンケートの繰り返し使用は、応答疲労を誘発し、応答バイアスによるデータ品質に影響を及ぼし、応答率を低下させる可能性がある。
本研究では,大規模言語モデル (LLMs) を用いて,優れた心理指標特性を維持しつつ,多様なアンケートバージョンを生成することを提案する。
縦断的研究では,参加者はエージェントシステムと対話し,標準化された抑うつアンケート,LSMによる質問変量,LSMによる質問変量,LSMによる小さな話を伴う質問変量のいずれかに2週間回答した。
回答は、評価された抑うつアンケートと比較された。
心理測定では, 外部基準と焦点測定との間に一貫した相違がみられ, LLM産生変異体の信頼性と妥当性が示された。
参加者は、この変種が、同じ基準化されたアンケートの繰り返し投与よりも、かなり少ないことを見出した。
以上の結果から, LLM生成型は, 有効性を損なうことなく, エージェント管理型質問紙を活性化し, エンゲージメントと関心を高めることができる可能性が示唆された。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Embodied Question Answering via Multi-LLM Systems [55.581423861790945]
EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。
本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークとして,EQAを考察する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Gotcha! Don't trick me with unanswerable questions! Self-aligning Large
Language Models for Responding to Unknown Questions [75.78536317322616]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - When Respondents Don't Care Anymore: Identifying the Onset of Careless Responding [0.0]
本稿では,各参加者に対する不注意応答の開始を同定する新しい手法を提案する。
これは、不注意が現れる可能性のある複数の次元の複合的な測定に基づいている。
非常に柔軟で、機械学習に基づいており、その性能に関する統計的保証を提供する。
論文 参考訳(メタデータ) (2023-03-13T15:10:30Z) - Open vs Closed-ended questions in attitudinal surveys -- comparing,
combining, and interpreting using natural language processing [3.867363075280544]
トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮する可能性がある。
本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。
論文 参考訳(メタデータ) (2022-05-03T06:01:03Z) - Determining Question-Answer Plausibility in Crowdsourced Datasets Using
Multi-Task Learning [10.742152224470317]
本稿では,品質分析とデータクリーニングのための新しいタスクを提案する。
ソーシャルメディア利用者からのマシンやユーザ生成の質問とクラウドソースによる回答が与えられた場合、質問と回答が有効かどうかを判断する。
クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-11-10T04:11:44Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。