論文の概要: From Quotes to Concepts: Axial Coding of Political Debates with Ensemble LMs
- arxiv url: http://arxiv.org/abs/2601.15338v1
- Date: Tue, 20 Jan 2026 13:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.361038
- Title: From Quotes to Concepts: Axial Coding of Political Debates with Ensemble LMs
- Title(参考訳): 論文から概念へ:政治討論とLMの軸的符号化
- Authors: Angelina Parfenova, David Graus, Juergen Pfeffer,
- Abstract要約: 我々は、大言語モデル(LLM)で軸符号化を運用する。
長い書き起こしをコンパクトで階層的に構造化されたコードやカテゴリに変換する。
今後の研究をサポートするため、発話とコードの全データセットを公開しています。
- 参考スコア(独自算出の注目度): 3.7765376220172393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Axial coding is a commonly used qualitative analysis method that enhances document understanding by organizing sentence-level open codes into broader categories. In this paper, we operationalize axial coding with large language models (LLMs). Extending an ensemble-based open coding approach with an LLM moderator, we add an axial coding step that groups open codes into higher-order categories, transforming raw debate transcripts into concise, hierarchical representations. We compare two strategies: (i) clustering embeddings of code-utterance pairs using density-based and partitioning algorithms followed by LLM labeling, and (ii) direct LLM-based grouping of codes and utterances into categories. We apply our method to Dutch parliamentary debates, converting lengthy transcripts into compact, hierarchically structured codes and categories. We evaluate our method using extrinsic metrics aligned with human-assigned topic labels (ROUGE-L, cosine, BERTScore), and intrinsic metrics describing code groups (coverage, brevity, coherence, novelty, JSD divergence). Our results reveal a trade-off: density-based clustering achieves high coverage and strong cluster alignment, while direct LLM grouping results in higher fine-grained alignment, but lower coverage 20%. Overall, clustering maximizes coverage and structural separation, whereas LLM grouping produces more concise, interpretable, and semantically aligned categories. To support future research, we publicly release the full dataset of utterances and codes, enabling reproducibility and comparative studies.
- Abstract(参考訳): アクシアルコーディング(Axial coding)は、文レベルのオープンコードをより広いカテゴリに整理することで文書理解を強化する定性的分析法である。
本稿では,大規模言語モデル (LLM) を用いて軸符号化を運用する。
LLMモデレータでアンサンブルベースのオープンコーディングアプローチを拡張することで、オープンコードを高階のカテゴリにグループ化し、生の議論書き起こしを簡潔で階層的な表現に変換する。
2つの戦略を比較します。
(i)密度ベースおよび分割アルゴリズムを用いた音声ペアのクラスタリング埋め込みとLCMラベリング
(ii) LLMに基づくコードと発話をカテゴリに分類する。
我々は,オランダ議会の議論に本手法を適用し,長文をコンパクトかつ階層的に構造化されたコードやカテゴリに変換する。
提案手法は,人間の指定したトピックラベル(ROUGE-L, cosine, BERTScore)と,コードグループ(カバレッジ, 簡潔性, コヒーレンス, 新規性, JSD分散性)を記述した内在的メトリクスを用いて評価する。
密度に基づくクラスタリングは高いカバレッジと強いクラスタアライメントを達成する一方、直接LLMグルーピングはよりきめ細かなアライメントを実現するが、カバレッジは20%以下になる。
全体として、クラスタリングはカバレッジと構造的分離を最大化しますが、LLMグルーピングはより簡潔で、解釈可能で、セマンティックに整合したカテゴリを生成します。
今後の研究を支援するため,発話とコードの全データセットを公開し,再現性と比較研究を可能にする。
関連論文リスト
- ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation [52.794544682493814]
大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。
本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。
3つの公開ベンチマークと2つの新しいドメイン固有のデータセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-12-04T00:49:43Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - Cequel: Cost-Effective Querying of Large Language Models for Text Clustering [15.179854529085544]
テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。
LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
論文 参考訳(メタデータ) (2025-04-22T06:57:49Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。