論文の概要: Thematic Analysis with Open-Source Generative AI and Machine Learning: A New Method for Inductive Qualitative Codebook Development
- arxiv url: http://arxiv.org/abs/2410.03721v1
- Date: Sat, 28 Sep 2024 18:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:28:28.233177
- Title: Thematic Analysis with Open-Source Generative AI and Machine Learning: A New Method for Inductive Qualitative Codebook Development
- Title(参考訳): オープンソース生成AIと機械学習によるテーマ分析:帰納的定性コードブック開発のための新しい手法
- Authors: Andrew Katz, Gabriella Coloyan Fleming, Joyce Main,
- Abstract要約: 本稿では,GATOS(Generative AI- enabled Theme Organization and Structuring)ワークフローを紹介する。
オープンソースの機械学習技術、自然言語処理ツール、および生成テキストモデルを使用して、テーマ分析を容易にする。
GATOSのワークフローは、元の合成データセットを生成するのに使われたテキストのテーマを識別できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper aims to answer one central question: to what extent can open-source generative text models be used in a workflow to approximate thematic analysis in social science research? To answer this question, we present the Generative AI-enabled Theme Organization and Structuring (GATOS) workflow, which uses open-source machine learning techniques, natural language processing tools, and generative text models to facilitate thematic analysis. To establish validity of the method, we present three case studies applying the GATOS workflow, leveraging these models and techniques to inductively create codebooks similar to traditional procedures using thematic analysis. Specifically, we investigate the extent to which a workflow comprising open-source models and tools can inductively produce codebooks that approach the known space of themes and sub-themes. To address the challenge of gleaning insights from these texts, we combine open-source generative text models, retrieval-augmented generation, and prompt engineering to identify codes and themes in large volumes of text, i.e., generate a qualitative codebook. The process mimics an inductive coding process that researchers might use in traditional thematic analysis by reading text one unit of analysis at a time, considering existing codes already in the codebook, and then deciding whether or not to generate a new code based on whether the extant codebook provides adequate thematic coverage. We demonstrate this workflow using three synthetic datasets from hypothetical organizational research settings: a study of teammate feedback in teamwork settings, a study of organizational cultures of ethical behavior, and a study of employee perspectives about returning to their offices after the pandemic. We show that the GATOS workflow is able to identify themes in the text that were used to generate the original synthetic datasets.
- Abstract(参考訳): 本稿では,社会科学研究におけるテーマ分析を近似するワークフローにおいて,オープンソース生成テキストモデルをどのように活用できるかという,一つの中心的な疑問に答えることを目的とする。
この質問に答えるために、我々は、オープンソースの機械学習技術、自然言語処理ツール、生成テキストモデルを使用して、テーマ分析を容易にする、ジェネレーティブAI対応のテーマオーガナイゼーションと構造化(GATOS)ワークフローを提示する。
本手法の有効性を確認するために,本手法をGATOSワークフローに適用した3つのケーススタディを提案する。
具体的には、オープンソースモデルとツールからなるワークフローが、既知のテーマやサブテーマの空間に近づくコードブックを誘導的に生成できる範囲について検討する。
これらのテキストから洞察を得ることの難しさに対処するため、オープンソースの生成テキストモデルと検索拡張生成を組み合わせるとともに、大量のテキスト中のコードやテーマを識別するエンジニアリング、すなわち定性的なコードブックを生成する。
このプロセスは、研究者が1つの分析単位のテキストを読み、すでにコードブックにある既存のコードを考慮し、既存のコードブックが適切なテーマカバレッジを提供するかどうかに基づいて、新しいコードを生成するかどうかを判断することで、従来のテーマ分析で使用可能な帰納的コーディングプロセスを模倣する。
チームワーク設定におけるチームメイトフィードバックの研究、倫理的行動の組織文化の研究、パンデミック後のオフィス復帰に関する従業員視点の研究である。
GATOSのワークフローは、元の合成データセットを生成するのに使われたテキストのテーマを識別できることを示す。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Generative retrieval-augmented ontologic graph and multi-agent
strategies for interpretive large language model-based materials design [0.0]
トランスフォーマーニューラルネットワークは、特に材料分析、設計、製造において、有望な能力を示す。
本稿では,教材の工学的分析を支援するツールとして,大規模言語モデル(LLM)の利用について検討する。
論文 参考訳(メタデータ) (2023-10-30T20:31:50Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Towards Understanding Machine Learning Testing in Practise [23.535630175567146]
本稿では,Jupyterノートブックのマイニングによる機械学習パイプラインの可視化について検討する。
まず、より小さなノートのサンプルの質的研究を用いて、一般的な洞察と傾向を収集する。
そして、質的研究から得られた知識を使って、より大きなノートブックのサンプルを使って経験的な研究を設計する。
論文 参考訳(メタデータ) (2023-05-08T18:52:26Z) - Supporting Qualitative Analysis with Large Language Models: Combining
Codebook with GPT-3 for Deductive Coding [45.5690960017762]
本研究は,大言語モデル (LLM) を用いた帰納的符号化支援について検討する。
タスク固有のモデルを訓練する代わりに、事前訓練されたLLMは、素早い学習を通じて微調整することなく、様々なタスクに直接使用することができる。
好奇心駆動型問合せコーディングタスクをケーススタディとして, GPT-3とエキスパートドラフトコードブックを組み合わせることで, 提案手法は有意な一致を達成し, 有能な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T04:52:43Z) - Informative Text Generation from Knowledge Triples [56.939571343797304]
本稿では,トレーニング中に学習した有用な知識を記憶するために,メモリネットワークを利用した新しいメモリ拡張ジェネレータを提案する。
我々は、新しい設定のためのWebNLGからデータセットを導き、我々のモデルの有効性を調べるための広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-26T14:35:57Z) - Scholastic: Graphical Human-Al Collaboration for Inductive and
Interpretive Text Analysis [20.008165537258254]
解釈学者は、意味のあるテーマが現れるまで、文書を手作業でサンプリングし、コードを適用し、コードをカテゴリに書き換え、照合することで、テキストコーパスから知識を生成する。
大規模なコーパスがあれば、機械学習はデータのサンプリングと分析をスケールするのに役立ちますが、以前の研究は、専門家が一般的に、解釈奨学金の破壊や推進に懸念を抱いていることを示しています。
我々は,機械・イン・ザ・ループクラスタリングアルゴリズムに関わる問題に対処するために,人間中心の設計アプローチを採り入れ,解釈テキスト分析を足場とした。
論文 参考訳(メタデータ) (2022-08-12T06:41:45Z) - A Framework for Neural Topic Modeling of Text Corpora [6.340447411058068]
テキストの特徴を抽出し,組み込むための効率的なメカニズムを実現するためのオープンソースフレームワークであるFAMEを紹介した。
本ライブラリの有効性を示すために,よく知られたNews-Groupデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-08-19T23:32:38Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。