論文の概要: From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews
- arxiv url: http://arxiv.org/abs/2312.01202v1
- Date: Sat, 2 Dec 2023 18:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:44:44.689585
- Title: From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews
- Title(参考訳): 音声から妥当性へ:大規模言語モデル(llm)を活用した政策ステークホルダインタビューのテキスト分析
- Authors: Alex Liu and Min Sun
- Abstract要約: 本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
- 参考スコア(独自算出の注目度): 14.135107583299277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining stakeholders' diverse experiences and opinions about current policy
in a timely manner is crucial for policymakers to identify strengths and gaps
in resource allocation, thereby supporting effective policy design and
implementation. However, manually coding even moderately sized interview texts
or open-ended survey responses from stakeholders can often be labor-intensive
and time-consuming. This study explores the integration of Large Language
Models (LLMs)--like GPT-4--with human expertise to enhance text analysis of
stakeholder interviews regarding K-12 education policy within one U.S. state.
Employing a mixed-methods approach, human experts developed a codebook and
coding processes as informed by domain knowledge and unsupervised topic
modeling results. They then designed prompts to guide GPT-4 analysis and
iteratively evaluate different prompts' performances. This combined
human-computer method enabled nuanced thematic and sentiment analysis. Results
reveal that while GPT-4 thematic coding aligned with human coding by 77.89% at
specific themes, expanding to broader themes increased congruence to 96.02%,
surpassing traditional Natural Language Processing (NLP) methods by over 25%.
Additionally, GPT-4 is more closely matched to expert sentiment analysis than
lexicon-based methods. Findings from quantitative measures and qualitative
reviews underscore the complementary roles of human domain expertise and
automated analysis as LLMs offer new perspectives and coding consistency. The
human-computer interactive approach enhances efficiency, validity, and
interpretability of educational policy research.
- Abstract(参考訳): 政策立案者が資源配分の強みとギャップを特定し、効果的な政策設計と実施を支援するためには、ステークホルダーの多様な経験と現在の政策に関する意見をタイムリーに把握することが不可欠である。
しかし、適度なサイズのインタビューテキストや利害関係者によるオープンエンドな調査回答を手作業でコーディングすることは、しばしば労働集約的で時間を要する。
本研究では,米国1州におけるK-12教育政策に関する参加者インタビューのテキスト分析を強化するため,大規模言語モデル(LLMs----------------を人間の専門知識と統合することを検討する。
混合メソッドのアプローチを採用して、ドメイン知識と教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
その後、GPT-4分析をガイドするプロンプトを設計し、異なるプロンプトのパフォーマンスを反復的に評価する。
この人間とコンピュータを組み合わせた手法は、ニュアンステーマと感情分析を可能にした。
gpt-4のテーマコーディングは、特定のテーマで人間のコーディングに77.89%、より広いテーマに拡大すると96.02%、従来の自然言語処理(nlp)の手法を25%以上上回った。
さらに、GPT-4はレキシコン法よりも専門家の感情分析と密接に一致している。
定量的測度と質的なレビューからの発見は、人間のドメインの専門知識と自動分析の相補的な役割を、LLMが新たな視点とコーディング一貫性を提供することを示している。
ヒューマン・コンピュータ・インタラクティブ・アプローチは、教育政策研究の効率、妥当性、解釈性を高める。
関連論文リスト
- Harnessing AI for efficient analysis of complex policy documents: a case study of Executive Order 14110 [44.99833362998488]
法律、規制、執行命令などの政策文書は、社会の形成に不可欠である。
本研究の目的は、政策分析の合理化におけるAIの可能性を評価し、現在のAIアプローチの強みと限界を特定することである。
論文 参考訳(メタデータ) (2024-06-10T11:19:28Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - Evaluating Large Language Models in Analysing Classroom Dialogue [8.793491910415897]
この研究には中学生のデータセットが含まれており、数学と中国語の授業間での教室での対話を含んでいる。
これらの対話は、教育専門家が手作業でコーディングし、カスタマイズされたGPT-4モデルを用いて分析した。
その結果、GPT-4によるかなりの時間節約と、モデルと人間のコーダ間のコーディングにおける高い一貫性が示され、特定のコードではいくつかの相違が見られる。
論文 参考訳(メタデータ) (2024-02-04T07:39:06Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。