Fugu-MT 論文翻訳(概要): Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions

論文の概要: Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions

arxiv url: http://arxiv.org/abs/2311.12707v1
Date: Tue, 21 Nov 2023 16:20:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 23:50:28.100104
Title: Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions
Title（参考訳）: 同じアンケートの繰り返し管理中,利用者の関与を維持する: 大きな言語モデルによる質問の多様化
Authors: Hye Sun Yun, Mehdi Arjmand, Phillip Raymond Sherlock, Michael Paasche-Orlow, James W. Griffith, Timothy Bickmore
Abstract要約: 本稿では,大規模言語モデル (LLM) を用いて多様なアンケートモデルを作成することを提案する。以上の結果から,LCM生成型が質問紙調査の活力を高める可能性,エンゲージメントと関心を高めること,有効性を損なうことなく実現できることが示唆された。
参考スコア（独自算出の注目度）: 0.6597195879147557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Standardized, validated questionnaires are vital tools in HCI research and healthcare, offering dependable self-report data. However, their repeated use in longitudinal or pre-post studies can induce respondent fatigue, impacting data quality via response biases and decreased response rates. We propose utilizing large language models (LLMs) to generate diverse questionnaire versions while retaining good psychometric properties. In a longitudinal study, participants engaged with our agent system and responded daily for two weeks to either a standardized depression questionnaire or one of two LLM-generated questionnaire variants, alongside a validated depression questionnaire. Psychometric testing revealed consistent covariation between the external criterion and the focal measure administered across the three conditions, demonstrating the reliability and validity of the LLM-generated variants. Participants found the repeated administration of the standardized questionnaire significantly more repetitive compared to the variants. Our findings highlight the potential of LLM-generated variants to invigorate questionnaires, fostering engagement and interest without compromising validity.
Abstract（参考訳）: 標準化された検証されたアンケートは、hci研究と医療において必須のツールであり、信頼できる自己報告データを提供する。しかし、縦断的または後続研究における繰り返しの使用は、応答性疲労を引き起こし、応答バイアスによるデータ品質に影響し、応答率を低下させる可能性がある。本研究では,大規模言語モデル(LLMs)を用いて,心理測定特性を良好に保ちつつ,多様なアンケートバージョンを生成することを提案する。縦断研究では, エージェントシステムに従事し, 2週間にわたり, 標準うつ病アンケート, 2つのllm生成アンケートのいずれにも回答し, 有効性うつ病アンケートと合わせて回答した。心理測定では, 外部基準と3つの条件にわたる焦点測定との間に一貫した相違がみられ, LLM生成変異体の信頼性と妥当性が示された。参加者は、標準化されたアンケートの繰り返し投与は、変種に比べて有意に反復的であることがわかった。以上の結果から,LCM生成型がアンケートの活力向上に寄与し,妥当性を損なうことなく参加と関心を高める可能性が示唆された。

関連論文リスト

Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses [1.7170969275523118]
大規模言語モデル (LLMs) は、社会科学調査において、人間の被験者のプロキシとしてますます使われている。本稿では,標準調査文脈におけるLCMの応答ロバスト性について検討する。
論文参考訳（メタデータ） (2025-07-09T18:01:50Z)
Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs [4.501692468580528]
臨床多点質問応答における不確実性評価法について詳細に検討した。本稿では,標準の単一世代法とサンプリング法を比較し,単純な単一パス推定法について考察する。本結果は,質問の性質とモデル固有の強みの両方に基づいて,モデルを選択することの重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-06-12T14:48:25Z)
Leveraging Interview-Informed LLMs to Model Survey Responses: Comparative Insights from AI-Generated and Human Data [4.774576759157642]
混合手法の研究は量的および質的なデータを統合するが、それらの異なる構造を整合させる際の課題に直面している。本研究では,大規模言語モデル(LLM)が人間の調査応答を確実に予測できるかどうかを検討する。
論文参考訳（メタデータ） (2025-05-28T05:57:26Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文参考訳（メタデータ） (2024-06-09T09:03:11Z)
Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文参考訳（メタデータ） (2024-02-23T02:24:36Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文参考訳（メタデータ） (2023-04-27T01:48:03Z)
When Respondents Don't Care Anymore: Identifying the Onset of Careless Responding [0.0]
本稿では,各参加者に対する不注意応答の開始を同定する新しい手法を提案する。これは、不注意が現れる可能性のある複数の次元の複合的な測定に基づいている。非常に柔軟で、機械学習に基づいており、その性能に関する統計的保証を提供する。
論文参考訳（メタデータ） (2023-03-13T15:10:30Z)
Open vs Closed-ended questions in attitudinal surveys -- comparing, combining, and interpreting using natural language processing [3.867363075280544]
トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮する可能性がある。本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。
論文参考訳（メタデータ） (2022-05-03T06:01:03Z)
MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文参考訳（メタデータ） (2020-10-10T10:36:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。