論文の概要: HICode: Hierarchical Inductive Coding with LLMs
- arxiv url: http://arxiv.org/abs/2509.17946v1
- Date: Mon, 22 Sep 2025 16:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.485066
- Title: HICode: Hierarchical Inductive Coding with LLMs
- Title(参考訳): HICode: LLMによる階層的インダクティブコーディング
- Authors: Mian Zhong, Pristina Wang, Anjalie Field,
- Abstract要約: HICodeは、まず分析データから直接ラベルを誘導的に生成し、階層的にそれらを階層的にクラスタ化し、創発的なテーマを表面化する2部パイプラインである。
提案手法は,人間の構成したテーマとのアライメントを測定し,その頑健さを自動評価と人的評価で示すことによって,3つの多様なデータセットにまたがって検証する。
- 参考スコア(独自算出の注目度): 3.0013352260516744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite numerous applications for fine-grained corpus analysis, researchers continue to rely on manual labeling, which does not scale, or statistical tools like topic modeling, which are difficult to control. We propose that LLMs have the potential to scale the nuanced analyses that researchers typically conduct manually to large text corpora. To this effect, inspired by qualitative research methods, we develop HICode, a two-part pipeline that first inductively generates labels directly from analysis data and then hierarchically clusters them to surface emergent themes. We validate this approach across three diverse datasets by measuring alignment with human-constructed themes and demonstrating its robustness through automated and human evaluations. Finally, we conduct a case study of litigation documents related to the ongoing opioid crisis in the U.S., revealing aggressive marketing strategies employed by pharmaceutical companies and demonstrating HICode's potential for facilitating nuanced analyses in large-scale data.
- Abstract(参考訳): 微粒なコーパス解析への多くの応用にもかかわらず、研究者は手動ラベリング(スケールしない)やトピックモデリングのような統計ツールに頼り続けており、制御が難しい。
我々は,LLMが研究者が手作業で大規模テキストコーパスに展開するニュアンス解析の規模を拡大する可能性を示唆する。
この効果は,定性的な研究手法に触発されて,まず解析データから直接ラベルを誘導して階層的にクラスタ化し,創発的テーマを表面的に生成する2部パイプラインであるHICodeを開発した。
提案手法は,人間の構成したテーマとのアライメントを測定し,その頑健さを自動評価と人的評価で示すことによって,3つの多様なデータセットにまたがって検証する。
最後に、米国におけるオピオイド危機に関する訴訟文書のケーススタディを行い、製薬会社による積極的なマーケティング戦略を明らかにし、大規模データにおけるニュアンス分析を促進するHICodeの可能性を示す。
関連論文リスト
- Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。
伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。
本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:25:31Z) - Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.48924329288906]
本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文 参考訳(メタデータ) (2025-02-26T03:56:34Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted
Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした
定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。