論文の概要: Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation
- arxiv url: http://arxiv.org/abs/2509.22211v1
- Date: Fri, 26 Sep 2025 11:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.385298
- Title: Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation
- Title(参考訳): 質問駆動分析と合成:テキストクラスタリングと制御可能な生成のためのLLMを用いた解釈可能なテーマツリーの構築
- Authors: Tiago Fernandes Tavares,
- Abstract要約: 二分木を対話的に構築するための再帰的テーマ分割(RTP)を導入する。
ツリーの各ノードは、データを意味的に分割する自然言語の質問であり、完全に解釈可能な分類である。
RTPの質問駆動階層はBERTopicのような強力なベースラインからのキーワードベースのトピックよりも解釈可能であることを示す。
- 参考スコア(独自算出の注目度): 1.3750624267664158
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised analysis of text corpora is challenging, especially in data-scarce domains where traditional topic models struggle. While these models offer a solution, they typically describe clusters with lists of keywords that require significant manual effort to interpret and often lack semantic coherence. To address this critical interpretability gap, we introduce Recursive Thematic Partitioning (RTP), a novel framework that leverages Large Language Models (LLMs) to interactively build a binary tree. Each node in the tree is a natural language question that semantically partitions the data, resulting in a fully interpretable taxonomy where the logic of each cluster is explicit. Our experiments demonstrate that RTP's question-driven hierarchy is more interpretable than the keyword-based topics from a strong baseline like BERTopic. Furthermore, we establish the quantitative utility of these clusters by showing they serve as powerful features in downstream classification tasks, particularly when the data's underlying themes correlate with the task labels. RTP introduces a new paradigm for data exploration, shifting the focus from statistical pattern discovery to knowledge-driven thematic analysis. Furthermore, we demonstrate that the thematic paths from the RTP tree can serve as structured, controllable prompts for generative models. This transforms our analytical framework into a powerful tool for synthesis, enabling the consistent imitation of specific characteristics discovered in the source corpus.
- Abstract(参考訳): テキストコーパスの教師なし解析は、特に従来のトピックモデルが苦労するデータスカース領域では困難である。
これらのモデルはソリューションを提供するが、典型的には、意味的コヒーレンスを欠くためにかなりの手作業を必要とするキーワードのリストを持つクラスタを記述する。
この重要な解釈可能性のギャップに対処するために、我々は、Large Language Models (LLM)を活用して対話的にバイナリツリーを構築する新しいフレームワークであるRecursive Thematic Partitioning (RTP)を紹介します。
ツリー内の各ノードは、データを意味的に分割する自然言語の質問であり、その結果、各クラスタの論理が明示される完全に解釈可能な分類結果となる。
我々の実験は、BERTopicのような強力なベースラインからのキーワードベースのトピックよりも、RTPの質問駆動階層の方が解釈可能であることを示した。
さらに、これらのクラスタの定量的有用性は、下流の分類タスクにおいて強力な機能として機能することを示し、特に、データの基礎となるテーマがタスクラベルと相関する場合に有効であることを示す。
RTPはデータ探索の新しいパラダイムを導入し、統計パターン発見から知識駆動のテーマ分析へと焦点を移した。
さらに、RTP木からのテーマパスが、生成モデルのための構造化された制御可能なプロンプトとして機能することを実証した。
これにより、分析フレームワークを強力な合成ツールに変換し、ソースコーパスで発見された特定の特性を一貫した模倣を可能にする。
関連論文リスト
- Talking to GDELT Through Knowledge Graphs [0.6153162958674417]
本研究では,各アプローチの強みと弱みを質問応答解析で把握するために,様々なRAG(Retrieval Augmented Regeneration)アプローチについて検討する。
テキストコーパスから情報を取得するために,従来のベクトルストアRAGと,最先端の大規模言語モデル(LLM)に基づくアプローチを実装した。
論文 参考訳(メタデータ) (2025-03-10T17:48:10Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - The Deep Latent Position Topic Model for Clustering and Representation
of Networks with Textual Edges [2.6334900941196087]
Deep-LPTMは、変分グラフ自動エンコーダアプローチに基づくモデルベースのクラスタリング戦略である。
Enron社のメールは分析され、その結果の視覚化が提示される。
論文 参考訳(メタデータ) (2023-04-14T07:01:57Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。