論文の概要: A Novel, Human-in-the-Loop Computational Grounded Theory Framework for Big Social Data
- arxiv url: http://arxiv.org/abs/2506.06083v1
- Date: Fri, 06 Jun 2025 13:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.49186
- Title: A Novel, Human-in-the-Loop Computational Grounded Theory Framework for Big Social Data
- Title(参考訳): 大規模ソーシャルデータのための新しいヒューマン・イン・ザ・ループ計算基底理論フレームワーク
- Authors: Lama Alqazlan, Zheng Fang, Michael Castelle, Rob Procter,
- Abstract要約: 結果の信頼性とロバスト性への信頼は、"Human-in-the-loop"手法を採用することに依存している、と我々は主張する。
本稿では,大規模定性的データセットの分析を支援する計算基底理論(CGT)の方法論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 8.695136686770772
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The availability of big data has significantly influenced the possibilities and methodological choices for conducting large-scale behavioural and social science research. In the context of qualitative data analysis, a major challenge is that conventional methods require intensive manual labour and are often impractical to apply to large datasets. One effective way to address this issue is by integrating emerging computational methods to overcome scalability limitations. However, a critical concern for researchers is the trustworthiness of results when Machine Learning (ML) and Natural Language Processing (NLP) tools are used to analyse such data. We argue that confidence in the credibility and robustness of results depends on adopting a 'human-in-the-loop' methodology that is able to provide researchers with control over the analytical process, while retaining the benefits of using ML and NLP. With this in mind, we propose a novel methodological framework for Computational Grounded Theory (CGT) that supports the analysis of large qualitative datasets, while maintaining the rigour of established Grounded Theory (GT) methodologies. To illustrate the framework's value, we present the results of testing it on a dataset collected from Reddit in a study aimed at understanding tutors' experiences in the gig economy.
- Abstract(参考訳): ビッグデータの利用可能性は、大規模行動科学・社会科学研究の実施可能性と方法論的選択に大きく影響している。
定性的データ分析の文脈では、従来の手法では集中的な手作業が必要であり、大規模なデータセットに適用するには実用的でないことが多い。
この問題に対処する効果的な方法の1つは、スケーラビリティの限界を克服するために新しい計算手法を統合することである。
しかし、研究者にとって重要な懸念は、機械学習(ML)と自然言語処理(NLP)ツールを使用してそのようなデータを分析する場合、結果の信頼性である。
結果の信頼性と堅牢性への信頼は、MLとNLPの利点を維持しつつ、研究者に分析過程を制御できる「ヒューマン・イン・ザ・ループ」手法を採用することに依存している、と我々は主張する。
そこで本研究では,大規模定性的データセットの分析を支援する計算基底理論(CGT)の方法論的枠組みを提案する。
フレームワークの価値を説明するために,学習者のギグエコノミーにおける経験を理解することを目的とした研究において,Redditから収集したデータセット上でテストした結果を示す。
関連論文リスト
- A Computational Method for Measuring "Open Codes" in Qualitative Analysis [47.358809793796624]
オープンコーディングは、データセットから"オープンコード"を特定し解釈する、帰納的定性的なプロセスである。
本稿では,「オープンコード」から潜在的なバイアスを系統的に計測し,同定する計算手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - Unveiling Topological Structures from Language: A Comprehensive Survey of Topological Data Analysis Applications in NLP [10.068736768442985]
トポロジカル・データ・アナリティクス(Topological Data Analysis)は、ノイズにもかかわらずデータの本質的な形状を識別する統計手法である。
トポロジカルデータ分析は、コンピュータビジョンのような構造的に異なる領域に比べて、自然言語処理領域内ではあまり注目を集めていない。
本研究は,これらの研究を理論的および非理論的アプローチに分類した。
論文 参考訳(メタデータ) (2024-11-15T15:55:05Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。