論文の概要: Taxonomy Tree Generation from Citation Graph
- arxiv url: http://arxiv.org/abs/2410.03761v2
- Date: Thu, 27 Feb 2025 02:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:52.370934
- Title: Taxonomy Tree Generation from Citation Graph
- Title(参考訳): サイテーショングラフからの分類木の生成
- Authors: Yuntong Hu, Zhuofeng Li, Zheng Zhang, Chen Ling, Raasikh Kanjiani, Boxin Zhao, Liang Zhao,
- Abstract要約: HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
- 参考スコア(独自算出の注目度): 15.188580557890942
- License:
- Abstract: Constructing taxonomies from citation graphs is essential for organizing scientific knowledge, facilitating literature reviews, and identifying emerging research trends. However, manual taxonomy construction is labor-intensive, time-consuming, and prone to human biases, often overlooking pivotal but less-cited papers. In this paper, to enable automatic hierarchical taxonomy generation from citation graphs, we propose HiGTL (Hierarchical Graph Taxonomy Learning), a novel end-to-end framework guided by human-provided instructions or preferred topics. Specifically, we propose a hierarchical citation graph clustering method that recursively groups related papers based on both textual content and citation structure, ensuring semantically meaningful and structurally coherent clusters. Additionally, we develop a novel taxonomy node verbalization strategy that iteratively generates central concepts for each cluster, leveraging a pre-trained large language model (LLM) to maintain semantic consistency across hierarchical levels. To further enhance performance, we design a joint optimization framework that fine-tunes both the clustering and concept generation modules, aligning structural accuracy with the quality of generated taxonomies. Extensive experiments demonstrate that HiGTL effectively produces coherent, high-quality taxonomies.
- Abstract(参考訳): 引用グラフから分類学を構築することは、科学的知識の整理、文献レビューの促進、新たな研究動向の特定に不可欠である。
しかし、手動の分類学の構築は労働集約的であり、時間がかかり、人間の偏見に傾向があり、しばしば重要でない論文を見落としている。
本稿では、引用グラフから自動的に階層的な分類を生成できるようにするために、人為的な指示や好まれるトピックをガイドする新しいエンドツーエンドフレームワークであるHiGTL(Hierarchical Graph Taxonomy Learning)を提案する。
具体的には,テキストの内容と引用構造の両方に基づいて関連論文を再帰的にグループ化する階層的引用グラフクラスタリング手法を提案する。
さらに,学習済みの大規模言語モデル (LLM) を利用して,階層レベルのセマンティック一貫性を維持することにより,各クラスタの中心概念を反復的に生成する新たな分類ノード言語化戦略を開発した。
クラスタリングと概念生成モジュールの両方を微調整し、構造的精度と生成した分類の質を整合させる共同最適化フレームワークを設計する。
大規模な実験により、HiGTLはコヒーレントで高品質な分類を効果的に生成することが示された。
関連論文リスト
- LITA: An Efficient LLM-assisted Iterative Topic Augmentation Framework [0.0]
大きな言語モデル(LLM)は動的トピックの洗練と発見の可能性を秘めている。
これらの課題に対処するため、LLM支援反復トピック拡張フレームワーク(LITA)を提案する。
LITAは、ユーザが提供するシードと埋め込みベースのクラスタリングと反復的な改良を統合している。
論文 参考訳(メタデータ) (2024-12-17T01:43:44Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。
提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。
合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T20:55:21Z) - CHIME: LLM-Assisted Hierarchical Organization of Scientific Studies for Literature Review Support [31.327873791724326]
文献のレビューでは、研究者が大量の情報を合成することを必要としており、科学文献が拡大するにつれてますます困難になっている。
本研究では,学術研究の階層的な組織を創出し,研究者の文献レビューを支援するLLMの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-23T03:18:00Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、Webコンテンツ分析やセマンティックインデクシングといった幅広いアプリケーションを用いた基本的なWebテキストマイニングタスクである。
初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。
人間の努力を軽減するため、我々は最小限の監督力で階層的なテキスト分類に取り組む:各ノードのクラス名のみを唯一の監督力として利用する。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Hierarchical Catalogue Generation for Literature Review: A Benchmark [36.22298354302282]
本稿では,7.6kの文献レビューカタログと389kの参考論文を収録した,新しい英語階層カタログ・オブ・文学レビューデータセットを構築した。
モデルの性能を正確に評価するために,2つの評価指標を設計する。
論文 参考訳(メタデータ) (2023-04-07T07:13:35Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。