論文の概要: HICode: Hierarchical Inductive Coding with LLMs
- arxiv url: http://arxiv.org/abs/2509.17946v1
- Date: Mon, 22 Sep 2025 16:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.485066
- Title: HICode: Hierarchical Inductive Coding with LLMs
- Title(参考訳): HICode: LLMによる階層的インダクティブコーディング
- Authors: Mian Zhong, Pristina Wang, Anjalie Field,
- Abstract要約: HICodeは、まず分析データから直接ラベルを誘導的に生成し、階層的にそれらを階層的にクラスタ化し、創発的なテーマを表面化する2部パイプラインである。
提案手法は,人間の構成したテーマとのアライメントを測定し,その頑健さを自動評価と人的評価で示すことによって,3つの多様なデータセットにまたがって検証する。
- 参考スコア(独自算出の注目度): 3.0013352260516744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite numerous applications for fine-grained corpus analysis, researchers continue to rely on manual labeling, which does not scale, or statistical tools like topic modeling, which are difficult to control. We propose that LLMs have the potential to scale the nuanced analyses that researchers typically conduct manually to large text corpora. To this effect, inspired by qualitative research methods, we develop HICode, a two-part pipeline that first inductively generates labels directly from analysis data and then hierarchically clusters them to surface emergent themes. We validate this approach across three diverse datasets by measuring alignment with human-constructed themes and demonstrating its robustness through automated and human evaluations. Finally, we conduct a case study of litigation documents related to the ongoing opioid crisis in the U.S., revealing aggressive marketing strategies employed by pharmaceutical companies and demonstrating HICode's potential for facilitating nuanced analyses in large-scale data.
- Abstract(参考訳): 微粒なコーパス解析への多くの応用にもかかわらず、研究者は手動ラベリング(スケールしない)やトピックモデリングのような統計ツールに頼り続けており、制御が難しい。
我々は,LLMが研究者が手作業で大規模テキストコーパスに展開するニュアンス解析の規模を拡大する可能性を示唆する。
この効果は,定性的な研究手法に触発されて,まず解析データから直接ラベルを誘導して階層的にクラスタ化し,創発的テーマを表面的に生成する2部パイプラインであるHICodeを開発した。
提案手法は,人間の構成したテーマとのアライメントを測定し,その頑健さを自動評価と人的評価で示すことによって,3つの多様なデータセットにまたがって検証する。
最後に、米国におけるオピオイド危機に関する訴訟文書のケーススタディを行い、製薬会社による積極的なマーケティング戦略を明らかにし、大規模データにおけるニュアンス分析を促進するHICodeの可能性を示す。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。
伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。
本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:25:31Z) - An AI-Powered Research Assistant in the Lab: A Practical Guide for Text Analysis Through Iterative Collaboration with LLMs [0.7255608805275865]
本稿では,LLMを用いた非構造化データの効率的な開発,テスト,適用のためのステップバイステップチュートリアルを提案する。
我々は,データセットをレビューし,生命ドメインの分類を作成,即時かつ直接的な修正を通じて分類を評価・洗練し,分類を検証し,インターコーダ契約を評価し,データセット全体を高いインターコーダ信頼性で分類する手法を実証する。
論文 参考訳(メタデータ) (2025-05-14T18:32:18Z) - Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.48924329288906]
本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文 参考訳(メタデータ) (2025-02-26T03:56:34Z) - MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。
この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。
そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文 参考訳(メタデータ) (2024-11-29T13:24:10Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted
Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした
定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。