論文の概要: Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering
- arxiv url: http://arxiv.org/abs/2509.19125v1
- Date: Tue, 23 Sep 2025 15:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.919199
- Title: Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering
- Title(参考訳): LLM-Guided Multi-Aspect Clustering による科学論文の文脈対応階層型分類生成
- Authors: Kun Zhu, Lizi Liao, Yuxuan Gu, Lei Huang, Xiaocheng Feng, Bing Qin,
- Abstract要約: 既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.54662810933882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific literature demands efficient methods to organize and synthesize research findings. Existing taxonomy construction methods, leveraging unsupervised clustering or direct prompting of large language models (LLMs), often lack coherence and granularity. We propose a novel context-aware hierarchical taxonomy generation framework that integrates LLM-guided multi-aspect encoding with dynamic clustering. Our method leverages LLMs to identify key aspects of each paper (e.g., methodology, dataset, evaluation) and generates aspect-specific paper summaries, which are then encoded and clustered along each aspect to form a coherent hierarchy. In addition, we introduce a new evaluation benchmark of 156 expert-crafted taxonomies encompassing 11.6k papers, providing the first naturally annotated dataset for this task. Experimental results demonstrate that our method significantly outperforms prior approaches, achieving state-of-the-art performance in taxonomy coherence, granularity, and interpretability.
- Abstract(参考訳): 科学文献の急速な成長は、研究結果を組織化し、合成するための効率的な方法を要求する。
既存の分類法では、教師なしクラスタリングや大規模言語モデル(LLM)の直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
提案手法はLCMを用いて各紙の重要面(方法論,データセット,評価など)を識別し,各面に沿って符号化・クラスタ化してコヒーレントな階層を形成するアスペクト特異的な紙要約を生成する。
さらに,11.6kの論文を含む156の専門家による分類の新たな評価ベンチマークを導入し,この課題に対する最初の自然な注釈付きデータセットを提供する。
実験の結果,本手法は従来の手法よりも優れており,分類のコヒーレンス,粒度,解釈可能性において最先端の性能を実現していることがわかった。
関連論文リスト
- CE-GOCD: Central Entity-Guided Graph Optimization for Community Detection to Augment LLM Scientific Question Answering [36.76110608580489]
大規模言語モデル (LLM) は、科学的研究論文に対する質問応答にますます使われている。
既存の検索拡張手法は、しばしば孤立したテキストチャンクや概念に依存しているが、論文間の深いセマンティックな関係を見落としている。
本稿では,学術知識グラフ内の意味的部分構造を明示的にモデル化し,活用することにより,LLMの科学的質問応答を強化する手法を提案する。
論文 参考訳(メタデータ) (2026-01-29T13:53:44Z) - SurveyG: A Multi-Agent LLM Framework with Hierarchical Citation Graph for Automated Survey Generation [4.512335376984058]
大規模言語モデル(LLM)は、調査用紙の自動生成にますます採用されている。
LLMに基づくエージェントフレームワークである textbfSurveyG を提案する。
textbfFoundation、textbfDevelopment、textbfFrontierの3つのレイヤで構成されており、セミナルな作品から漸進的な進歩、新たな方向性までの研究の進化を捉えている。
論文 参考訳(メタデータ) (2025-10-09T03:14:20Z) - Topic-Guided Reinforcement Learning with LLMs for Enhancing Multi-Document Summarization [49.61589046694085]
マルチドキュメント要約におけるコンテンツ選択を改善するためのトピック誘導型強化学習手法を提案する。
まず、トピックラベル付きモデルに明示的にプロンプトすることで、生成した要約の情報性が向上することを示す。
論文 参考訳(メタデータ) (2025-09-11T21:01:54Z) - A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora [6.384357773998868]
Sci-OGは研究トピックを生成するための半自動的な方法論である。
本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。
提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
論文 参考訳(メタデータ) (2025-08-06T08:48:14Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Science Hierarchography: Hierarchical Organization of Science Literature [20.182213614072836]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Taxonomy Tree Generation from Citation Graph [15.188580557890942]
HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
論文 参考訳(メタデータ) (2024-10-02T13:02:03Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。