論文の概要: Exploring Qualitative Research Using LLMs
- arxiv url: http://arxiv.org/abs/2306.13298v1
- Date: Fri, 23 Jun 2023 05:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 13:47:35.816826
- Title: Exploring Qualitative Research Using LLMs
- Title(参考訳): LLMを用いた質的研究の探索
- Authors: Muneera Bano, Didar Zowghi, Jon Whittle
- Abstract要約: この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
- 参考スコア(独自算出の注目度): 8.545798128849091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of AI driven large language models (LLMs) have stirred discussions
about their role in qualitative research. Some view these as tools to enrich
human understanding, while others perceive them as threats to the core values
of the discipline. This study aimed to compare and contrast the comprehension
capabilities of humans and LLMs. We conducted an experiment with small sample
of Alexa app reviews, initially classified by a human analyst. LLMs were then
asked to classify these reviews and provide the reasoning behind each
classification. We compared the results with human classification and
reasoning. The research indicated a significant alignment between human and
ChatGPT 3.5 classifications in one third of cases, and a slightly lower
alignment with GPT4 in over a quarter of cases. The two AI models showed a
higher alignment, observed in more than half of the instances. However, a
consensus across all three methods was seen only in about one fifth of the
classifications. In the comparison of human and LLMs reasoning, it appears that
human analysts lean heavily on their individual experiences. As expected, LLMs,
on the other hand, base their reasoning on the specific word choices found in
app reviews and the functional components of the app itself. Our results
highlight the potential for effective human LLM collaboration, suggesting a
synergistic rather than competitive relationship. Researchers must continuously
evaluate LLMs role in their work, thereby fostering a future where AI and
humans jointly enrich qualitative research.
- Abstract(参考訳): AI駆動型大規模言語モデル(LLM)の出現は、定性的研究における彼らの役割について議論を呼んだ。
これらは人間の理解を深めるツールだと考える人もいれば、規律の核となる価値に対する脅威だと認識する人もいる。
本研究は,人間とLLMの理解能力を比較し,比較することを目的とした。
私たちは、まず人間のアナリストによって分類されたalexaアプリレビューのサンプルを実験しました。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
結果と人間の分類と推論を比較した。
研究によると、ヒトとChatGPT3.5の分類は3分の1で有意な一致を示し、GPT4の分類は4分の1以上でわずかに低かった。
2つのAIモデルは高いアライメントを示し、半数以上のケースで観察された。
しかし,3つの手法にまたがるコンセンサスは,分類の約5分の1にのみ見られた。
人間とLLMの推論と比較すると、人間のアナリストは個々の経験に大きく依存しているようだ。
予想通り、LDMはアプリレビューにある特定の単語の選択と、アプリ自体の機能的コンポーネントに基づいて、彼らの推論に基づいています。
本研究は, 競争関係よりも相乗効果を示唆し, 効果的な人間LLMコラボレーションの可能性を強調した。
研究者はLLMの役割を継続的に評価し、AIと人間が共同で質的研究を行う未来を育む必要がある。
関連論文リスト
- Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z) - Exploring the psychology of LLMs' Moral and Legal Reasoning [0.0]
大規模言語モデル(LLM)は、さまざまな領域にわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
LLMによって提起された倫理的問題と将来のバージョンを整合させる必要性は、アートモデルの現状が道徳的および法的問題にどのように影響するかを知ることが重要である。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
ある実験から別の実験へと人間の反応の一致が変化し、モデルが全体として異なることがわかりました。
論文 参考訳(メタデータ) (2023-08-02T16:36:58Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。