論文の概要: Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs
- arxiv url: http://arxiv.org/abs/2604.07562v1
- Date: Wed, 08 Apr 2026 20:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.539607
- Title: Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs
- Title(参考訳): LLMによる教師なしテキストクラスタの推論によるリファインメント
- Authors: Tunazzina Islam,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を組み込みジェネレータとしてではなく,推論に基づく改良フレームワークを提案する。
本フレームワークでは, (i) コヒーレンス検証, (ii) 冗長性判断, (iii) ラベル接地という3つの推論段階を導入する。
インタラクションモデルが異なる2つのプラットフォームから,実世界のソーシャルメディアコーパスの枠組みを評価する。
- 参考スコア(独自算出の注目度): 8.06425428468097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised methods are widely used to induce latent semantic structure from large text collections, yet their outputs often contain incoherent, redundant, or poorly grounded clusters that are difficult to validate without labeled data. We propose a reasoning-based refinement framework that leverages large language models (LLMs) not as embedding generators, but as semantic judges that validate and restructure the outputs of arbitrary unsupervised clustering algorithms.Our framework introduces three reasoning stages: (i) coherence verification, where LLMs assess whether cluster summaries are supported by their member texts; (ii) redundancy adjudication, where candidate clusters are merged or rejected based on semantic overlap; and (iii) label grounding, where clusters are assigned interpretable labels in a fully unsupervised manner. This design decouples representation learning from structural validation and mitigates common failure modes of embedding-only approaches. We evaluate the framework on real-world social media corpora from two platforms with distinct interaction models, demonstrating consistent improvements in cluster coherence and human-aligned labeling quality over classical topic models and recent representation-based baselines. Human evaluation shows strong agreement with LLM-generated labels, despite the absence of gold-standard annotations. We further conduct robustness analyses under matched temporal and volume conditions to assess cross-platform stability. Beyond empirical gains, our results suggest that LLM-based reasoning can serve as a general mechanism for validating and refining unsupervised semantic structure, enabling more reliable and interpretable analyses of large text collections without supervision.
- Abstract(参考訳): 教師なしの手法は、大規模なテキストコレクションから潜在意味構造を誘導するために広く用いられているが、その出力には、ラベル付きデータなしでは検証が難しい不整合性、冗長性、あるいは根拠の低いクラスタが含まれることが多い。
我々は,大規模言語モデル(LLM)を埋め込みジェネレータとしてではなく,任意のクラスタリングアルゴリズムの出力を検証・再構成する意味判断として活用する推論ベース改良フレームワークを提案する。
(i)コヒーレンス検証において、LCMは、そのメンバのテキストによってクラスタ要約がサポートされているかどうかを評価する。
二 意味的重複に基づいて、候補クラスタを合併又は拒絶する冗長性判断
(iii) クラスタが完全に教師なしの方法で解釈可能なラベルに割り当てられるラベルの接地。
この設計は、構造的検証から表現学習を分離し、埋め込み専用アプローチの一般的な障害モードを緩和する。
本研究では,従来のトピックモデルと最近の表現ベースラインに比較して,クラスタコヒーレンスとヒューマンアラインなラベリング品質が一貫した改善を示すとともに,インタラクションモデルが異なる2つのプラットフォームによる実世界のソーシャルメディアコーパスの枠組みを評価する。
人間の評価は、ゴールドスタンダードアノテーションが欠如しているにもかかわらず、LLM生成ラベルと強い一致を示している。
さらに, 時間的および体積的整合条件下でのロバストネス解析を行い, クロスプラットフォームの安定性を評価する。
実験結果より, LLMに基づく推論は, 教師なし意味構造を検証し, 精査するための一般的なメカニズムとして機能し, 教師なしの大規模テキストコレクションの信頼性, 解釈可能な解析を可能にする可能性が示唆された。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents [81.79110139097297]
汎用埋め込みモデルは意味的類似性を認識するのに優れているが、ユーザ命令で指定されたテキストの特徴を捉えることができない。
我々は、命令追従クラスタリングを生成タスクとして再編成し、大規模推論モデルを自律的なクラスタリングエージェントとして訓練する。
我々の推論駆動学習パイプラインは、LEMがハイレベルクラスタリング命令を解釈し、対応する潜在グループを推測することを可能にする。
論文 参考訳(メタデータ) (2026-03-06T10:15:54Z) - A Unified and Stable Risk Minimization Framework for Weakly Supervised Learning with Theoretical Guarantees [33.15955234458642]
完全かつ正確なラベルが取得にコストがかかる、あるいは不可能な場合には、完全に教師付き学習の代替として弱教師付き学習が実用化されている。
弱教師付きデータの構造に根ざした安定な代理リスクを定式化することにより、そのようなポストホック調整を回避できる、原則化された統一されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T00:57:04Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。