論文の概要: Keeping Users Engaged During Repeated Administration of the Same
Questionnaire: Using Large Language Models to Reliably Diversify Questions
- arxiv url: http://arxiv.org/abs/2311.12707v1
- Date: Tue, 21 Nov 2023 16:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 23:50:28.100104
- Title: Keeping Users Engaged During Repeated Administration of the Same
Questionnaire: Using Large Language Models to Reliably Diversify Questions
- Title(参考訳): 同じアンケートの繰り返し管理中,利用者の関与を維持する: 大きな言語モデルによる質問の多様化
- Authors: Hye Sun Yun, Mehdi Arjmand, Phillip Raymond Sherlock, Michael
Paasche-Orlow, James W. Griffith, Timothy Bickmore
- Abstract要約: 本稿では,大規模言語モデル (LLM) を用いて多様なアンケートモデルを作成することを提案する。
以上の結果から,LCM生成型が質問紙調査の活力を高める可能性,エンゲージメントと関心を高めること,有効性を損なうことなく実現できることが示唆された。
- 参考スコア(独自算出の注目度): 0.6597195879147557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standardized, validated questionnaires are vital tools in HCI research and
healthcare, offering dependable self-report data. However, their repeated use
in longitudinal or pre-post studies can induce respondent fatigue, impacting
data quality via response biases and decreased response rates. We propose
utilizing large language models (LLMs) to generate diverse questionnaire
versions while retaining good psychometric properties. In a longitudinal study,
participants engaged with our agent system and responded daily for two weeks to
either a standardized depression questionnaire or one of two LLM-generated
questionnaire variants, alongside a validated depression questionnaire.
Psychometric testing revealed consistent covariation between the external
criterion and the focal measure administered across the three conditions,
demonstrating the reliability and validity of the LLM-generated variants.
Participants found the repeated administration of the standardized
questionnaire significantly more repetitive compared to the variants. Our
findings highlight the potential of LLM-generated variants to invigorate
questionnaires, fostering engagement and interest without compromising
validity.
- Abstract(参考訳): 標準化された検証されたアンケートは、hci研究と医療において必須のツールであり、信頼できる自己報告データを提供する。
しかし、縦断的または後続研究における繰り返しの使用は、応答性疲労を引き起こし、応答バイアスによるデータ品質に影響し、応答率を低下させる可能性がある。
本研究では,大規模言語モデル(LLMs)を用いて,心理測定特性を良好に保ちつつ,多様なアンケートバージョンを生成することを提案する。
縦断研究では, エージェントシステムに従事し, 2週間にわたり, 標準うつ病アンケート, 2つのllm生成アンケートのいずれにも回答し, 有効性うつ病アンケートと合わせて回答した。
心理測定では, 外部基準と3つの条件にわたる焦点測定との間に一貫した相違がみられ, LLM生成変異体の信頼性と妥当性が示された。
参加者は、標準化されたアンケートの繰り返し投与は、変種に比べて有意に反復的であることがわかった。
以上の結果から,LCM生成型がアンケートの活力向上に寄与し,妥当性を損なうことなく参加と関心を高める可能性が示唆された。
関連論文リスト
- Gotcha! Don't trick me with unanswerable questions! Self-aligning Large
Language Models for Responding to Unknown Questions [75.78536317322616]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Adaptive Language-based Mental Health Assessment with Item-Response
Theory [7.801208784626191]
適応型言語に基づく評価(Adaptive Language-based Assessment)は,モデルが問うべき質問に対する限られた言語応答に基づいて,個人の心理的スコアを反復的に推定するタスクである。
適応テストは一般に高い妥当性を達成するのに必要な質問の数を大幅に削減できることがわかった。
どちらのモデルもランダムな順序付けや固定順序付けよりも大幅に改善されているが、ALIRTはより少ない質問数で最高の精度を達成できるスケーラブルなモデルである。
論文 参考訳(メタデータ) (2023-11-11T03:37:17Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - Open vs Closed-ended questions in attitudinal surveys -- comparing,
combining, and interpreting using natural language processing [3.867363075280544]
トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮する可能性がある。
本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。
論文 参考訳(メタデータ) (2022-05-03T06:01:03Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Predicting Parkinson's Disease with Multimodal Irregularly Collected
Longitudinal Smartphone Data [75.23250968928578]
パーキンソン病は神経疾患であり、高齢者に多い。
伝統的に病気を診断する方法は、一連の活動テストの品質に関する個人的主観的臨床評価に依存している。
そこで本研究では,スマートフォンが収集した生の行動データを用いて,パーキンソン病を予測するための時系列に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-25T01:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。