論文の概要: What Makes a Good Response? An Empirical Analysis of Quality in Qualitative Interviews
- arxiv url: http://arxiv.org/abs/2604.05163v1
- Date: Mon, 06 Apr 2026 20:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.485221
- Title: What Makes a Good Response? An Empirical Analysis of Quality in Qualitative Interviews
- Title(参考訳): 良い反応とは何か : 質的インタビューにおける質の実証分析
- Authors: Jonathan Ivey, Anjalie Field, Ziang Xiao,
- Abstract要約: 質問応答の質に関する10の尺度を同定し,実装し,評価する。
重要な研究課題への直接的な関連性は、応答品質の最も強い予測要因である。
NLPインタビューシステムの評価に一般的に用いられる尺度は,応答品質の予測には適していない。
- 参考スコア(独自算出の注目度): 12.352951913761041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative interviews provide essential insights into human experiences when they elicit high-quality responses. While qualitative and NLP researchers have proposed various measures of interview quality, these measures lack validation that high-scoring responses actually contribute to the study's goals. In this work, we identify, implement, and evaluate 10 proposed measures of interview response quality to determine which are actually predictive of a response's contribution to the study findings. To conduct our analysis, we introduce the Qualitative Interview Corpus, a newly constructed dataset of 343 interview transcripts with 16,940 participant responses from 14 real research projects. We find that direct relevance to a key research question is the strongest predictor of response quality. We additionally find that two measures commonly used to evaluate NLP interview systems, clarity and surprisal-based informativeness, are not predictive of response quality. Our work provides analytic insights and grounded, scalable metrics to inform the design of qualitative studies and the evaluation of automated interview systems.
- Abstract(参考訳): 質的なインタビューは、高品質な応答を誘発する人間の経験に不可欠な洞察を与える。
質的およびNLP研究者は、インタビュー品質の様々な尺度を提案しているが、これらの尺度は、ハイスコア応答が研究の目標に実際に寄与することの検証を欠いている。
本研究は,質問応答の質を評価するための10の尺度を同定し,実装し,評価する。
分析を行うために,14の実際の研究プロジェクトから16,940の回答を得た343件の面接書を新たに構築したQuilitative Interview Corpusを紹介した。
重要な研究課題に対する直接的な関連性は、応答品質の最も強い予測要因であることがわかった。
また,NLPインタビューシステムの評価に一般的に用いられる2つの尺度,明瞭度と主観的情報性は,応答品質の予測には適さないことがわかった。
我々の研究は、質的研究の設計と自動面接システムの評価を知らせる分析的洞察と基盤的かつスケーラブルなメトリクスを提供する。
関連論文リスト
- DeepSurvey-Bench: Evaluating Academic Value of Automatically Generated Scientific Survey [53.85391477976017]
DeepSurvey-Benchは、生成された調査の学術的価値を包括的に評価するために設計された、新しいベンチマークである。
学術的価値アノテーションを用いた信頼性のあるデータセットを構築し, 生成した調査の深い学術的価値を評価する。
論文 参考訳(メタデータ) (2026-01-13T14:42:56Z) - What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文 参考訳(メタデータ) (2025-06-07T23:19:27Z) - AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers [40.80290002598963]
本研究では,人間のインタビュアーを大規模言語モデル (LLM) に置き換えて,スケーラブルな対話型インタビュアーを実現する可能性について検討する。
大学生を対象に,AIやヒューマンインタビュアーによる会話面接にランダムに割り当てられた,小規模かつ詳細な調査を行った。
様々な量的・質的な尺度は, インタビュアーのガイドライン, 応答品質, 参加者参加率, 総合的な面接効果に順応した。
論文 参考訳(メタデータ) (2024-09-16T16:03:08Z) - Measuring the Quality of Answers in Political Q&As with Large Language Models [0.5261718469769449]
本稿では,政治質問・回答セッションにおける回答の質を評価するための新しいアプローチを提案する。
質問文からランダムな回答の集合において、その回答がいかに簡単かつ正確に認識できるかに基づいて、回答の品質を計測する。
論文 参考訳(メタデータ) (2024-04-12T21:16:53Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。