論文の概要: Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering
- arxiv url: http://arxiv.org/abs/2509.19125v1
- Date: Tue, 23 Sep 2025 15:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.919199
- Title: Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering
- Title(参考訳): LLM-Guided Multi-Aspect Clustering による科学論文の文脈対応階層型分類生成
- Authors: Kun Zhu, Lizi Liao, Yuxuan Gu, Lei Huang, Xiaocheng Feng, Bing Qin,
- Abstract要約: 既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.54662810933882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific literature demands efficient methods to organize and synthesize research findings. Existing taxonomy construction methods, leveraging unsupervised clustering or direct prompting of large language models (LLMs), often lack coherence and granularity. We propose a novel context-aware hierarchical taxonomy generation framework that integrates LLM-guided multi-aspect encoding with dynamic clustering. Our method leverages LLMs to identify key aspects of each paper (e.g., methodology, dataset, evaluation) and generates aspect-specific paper summaries, which are then encoded and clustered along each aspect to form a coherent hierarchy. In addition, we introduce a new evaluation benchmark of 156 expert-crafted taxonomies encompassing 11.6k papers, providing the first naturally annotated dataset for this task. Experimental results demonstrate that our method significantly outperforms prior approaches, achieving state-of-the-art performance in taxonomy coherence, granularity, and interpretability.
- Abstract(参考訳): 科学文献の急速な成長は、研究結果を組織化し、合成するための効率的な方法を要求する。
既存の分類法では、教師なしクラスタリングや大規模言語モデル(LLM)の直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
提案手法はLCMを用いて各紙の重要面(方法論,データセット,評価など)を識別し,各面に沿って符号化・クラスタ化してコヒーレントな階層を形成するアスペクト特異的な紙要約を生成する。
さらに,11.6kの論文を含む156の専門家による分類の新たな評価ベンチマークを導入し,この課題に対する最初の自然な注釈付きデータセットを提供する。
実験の結果,本手法は従来の手法よりも優れており,分類のコヒーレンス,粒度,解釈可能性において最先端の性能を実現していることがわかった。
関連論文リスト
- Topic-Guided Reinforcement Learning with LLMs for Enhancing Multi-Document Summarization [49.61589046694085]
マルチドキュメント要約におけるコンテンツ選択を改善するためのトピック誘導型強化学習手法を提案する。
まず、トピックラベル付きモデルに明示的にプロンプトすることで、生成した要約の情報性が向上することを示す。
論文 参考訳(メタデータ) (2025-09-11T21:01:54Z) - A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora [6.384357773998868]
Sci-OGは研究トピックを生成するための半自動的な方法論である。
本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。
提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
論文 参考訳(メタデータ) (2025-08-06T08:48:14Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Science Hierarchography: Hierarchical Organization of Science Literature [20.182213614072836]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Taxonomy Tree Generation from Citation Graph [15.188580557890942]
HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
論文 参考訳(メタデータ) (2024-10-02T13:02:03Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。