論文の概要: LOGOS: LLM-driven End-to-End Grounded Theory Development and Schema Induction for Qualitative Research
- arxiv url: http://arxiv.org/abs/2509.24294v1
- Date: Mon, 29 Sep 2025 05:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.758166
- Title: LOGOS: LLM-driven End-to-End Grounded Theory Development and Schema Induction for Qualitative Research
- Title(参考訳): LOGOS: 定性的研究のためのLLM駆動のエンド・ツー・エンド基底理論の開発とスキーマ誘導
- Authors: Xinyu Pi, Qisen Yang, Chuong Nguyen,
- Abstract要約: グラウンドド理論は質的なデータから深い洞察を提供するが、専門家が集中する手動コーディングに依存しているため、大きなスケーラビリティのボトルネックが生じる。
基礎理論ワークフローを完全に自動化する新しいエンドツーエンドフレームワークであるLOGOSを紹介する。
LOGOSはLLM駆動のコーディング、セマンティッククラスタリング、グラフ推論、そして再利用可能なコードブックを構築するための新しい反復的洗練プロセスを統合している。
- 参考スコア(独自算出の注目度): 9.819685510441902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounded theory offers deep insights from qualitative data, but its reliance on expert-intensive manual coding presents a major scalability bottleneck. Current computational tools stop short of true automation, keeping researchers firmly in the loop. We introduce LOGOS, a novel, end-to-end framework that fully automates the grounded theory workflow, transforming raw text into a structured, hierarchical theory. LOGOS integrates LLM-driven coding, semantic clustering, graph reasoning, and a novel iterative refinement process to build highly reusable codebooks. To ensure fair comparison, we also introduce a principled 5-dimensional metric and a train-test split protocol for standardized, unbiased evaluation. Across five diverse corpora, LOGOS consistently outperforms strong baselines and achieves a remarkable $88.2\%$ alignment with an expert-developed schema on a complex dataset. LOGOS demonstrates a powerful new path to democratize and scale qualitative research without sacrificing theoretical nuance.
- Abstract(参考訳): グラウンドド理論は質的なデータから深い洞察を提供するが、専門家が集中する手動コーディングに依存しているため、大きなスケーラビリティのボトルネックが生じる。
現在の計算ツールは真の自動化に足りず、研究者をしっかりとループに留めている。
基礎理論のワークフローを完全に自動化し,原文を構造化階層理論に変換する,新しいエンドツーエンドフレームワークであるLOGOSを紹介する。
LOGOSはLLM駆動のコーディング、セマンティッククラスタリング、グラフ推論、そして再利用可能なコードブックを構築するための新しい反復的洗練プロセスを統合している。
公平な比較を確保するため,本研究では,標準化された非バイアス評価のための5次元距離と列車試験分割プロトコルも導入する。
5つの多種多様なコーパスの中で、LOGOSは一貫して強いベースラインを上回り、複雑なデータセット上で専門家が開発したスキーマと驚くべき8.2\%のアライメントを達成している。
LOGOSは、理論的なニュアンスを犠牲にすることなく、定性的研究を民主化し、拡張するための強力な新しい道を示す。
関連論文リスト
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。
自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。
NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文 参考訳(メタデータ) (2025-05-02T16:36:57Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Reward Generalization in RLHF: A Topological Perspective [11.860984070348348]
人的フィードバックからの強化学習における報酬一般化の理論を導入する。
マクロレベルでは、RLHF情報フローを行動分布上の自動符号化プロセスとして表現する。
マイクロレベルでは、データセットトポロジが報酬一般化に与える影響をモデル化するためにベイズネットワークを誘導する。
論文 参考訳(メタデータ) (2024-02-15T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。