論文の概要: Taxonomy Tree Generation from Citation Graph
- arxiv url: http://arxiv.org/abs/2410.03761v2
- Date: Thu, 27 Feb 2025 02:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.124939
- Title: Taxonomy Tree Generation from Citation Graph
- Title(参考訳): サイテーショングラフからの分類木の生成
- Authors: Yuntong Hu, Zhuofeng Li, Zheng Zhang, Chen Ling, Raasikh Kanjiani, Boxin Zhao, Liang Zhao,
- Abstract要約: HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
- 参考スコア(独自算出の注目度): 15.188580557890942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing taxonomies from citation graphs is essential for organizing scientific knowledge, facilitating literature reviews, and identifying emerging research trends. However, manual taxonomy construction is labor-intensive, time-consuming, and prone to human biases, often overlooking pivotal but less-cited papers. In this paper, to enable automatic hierarchical taxonomy generation from citation graphs, we propose HiGTL (Hierarchical Graph Taxonomy Learning), a novel end-to-end framework guided by human-provided instructions or preferred topics. Specifically, we propose a hierarchical citation graph clustering method that recursively groups related papers based on both textual content and citation structure, ensuring semantically meaningful and structurally coherent clusters. Additionally, we develop a novel taxonomy node verbalization strategy that iteratively generates central concepts for each cluster, leveraging a pre-trained large language model (LLM) to maintain semantic consistency across hierarchical levels. To further enhance performance, we design a joint optimization framework that fine-tunes both the clustering and concept generation modules, aligning structural accuracy with the quality of generated taxonomies. Extensive experiments demonstrate that HiGTL effectively produces coherent, high-quality taxonomies.
- Abstract(参考訳): 引用グラフから分類学を構築することは、科学的知識の整理、文献レビューの促進、新たな研究動向の特定に不可欠である。
しかし、手動の分類学の構築は労働集約的であり、時間がかかり、人間の偏見に傾向があり、しばしば重要でない論文を見落としている。
本稿では、引用グラフから自動的に階層的な分類を生成できるようにするために、人為的な指示や好まれるトピックをガイドする新しいエンドツーエンドフレームワークであるHiGTL(Hierarchical Graph Taxonomy Learning)を提案する。
具体的には,テキストの内容と引用構造の両方に基づいて関連論文を再帰的にグループ化する階層的引用グラフクラスタリング手法を提案する。
さらに,学習済みの大規模言語モデル (LLM) を利用して,階層レベルのセマンティック一貫性を維持することにより,各クラスタの中心概念を反復的に生成する新たな分類ノード言語化戦略を開発した。
クラスタリングと概念生成モジュールの両方を微調整し、構造的精度と生成した分類の質を整合させる共同最適化フレームワークを設計する。
大規模な実験により、HiGTLはコヒーレントで高品質な分類を効果的に生成することが示された。
関連論文リスト
- Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [63.97125827026949]
本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。
分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。
9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-13T13:37:54Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Refining Wikidata Taxonomy using Large Language Models [2.392329079182226]
我々は,Large Language Models (LLM) とグラフマイニング技術を組み合わせたWikidata分類の新バージョンであるWiKCを提案する。
リンクを切断したり、クラスをマージしたりといった分類の操作は、オープンソースのLCM上でゼロショットプロンプトの助けを借りて行われる。
論文 参考訳(メタデータ) (2024-09-06T06:53:45Z) - Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。
提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。
合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T20:55:21Z) - CHIME: LLM-Assisted Hierarchical Organization of Scientific Studies for Literature Review Support [31.327873791724326]
文献のレビューでは、研究者が大量の情報を合成することを必要としており、科学文献が拡大するにつれてますます困難になっている。
本研究では,学術研究の階層的な組織を創出し,研究者の文献レビューを支援するLLMの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-23T03:18:00Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。
本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文 参考訳(メタデータ) (2024-03-24T17:39:51Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Towards Visual Taxonomy Expansion [50.462998483087915]
本稿では,分類拡張タスクに視覚的特徴を導入し,VTE(Visual Taxonomy Expansion)を提案する。
テキストと視覚のセマンティクスをクラスタリングするためのテキストハイパーネミー学習タスクとビジュアルプロトタイプ学習タスクを提案する。
提案手法を2つのデータセットで評価し,有意な結果を得た。
論文 参考訳(メタデータ) (2023-09-12T10:17:28Z) - Hierarchical Catalogue Generation for Literature Review: A Benchmark [36.22298354302282]
本稿では,7.6kの文献レビューカタログと389kの参考論文を収録した,新しい英語階層カタログ・オブ・文学レビューデータセットを構築した。
モデルの性能を正確に評価するために,2つの評価指標を設計する。
論文 参考訳(メタデータ) (2023-04-07T07:13:35Z) - Bringing motion taxonomies to continuous domains via GPLVM on hyperbolic manifolds [8.385386712928785]
人間の動きは、人間の動きと環境との相互作用の仕方を分類する高レベルの階層的抽象化として機能する。
本稿では,関連する階層構造を捉えるハイパーボリック埋め込みを用いて分類データをモデル化することを提案する。
本モデルでは,既存の分類群や新分類群の未確認データを適切にエンコードし,EuclideanおよびVAEベースの分類群よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-04T15:19:24Z) - TaxoEnrich: Self-Supervised Taxonomy Completion via Structure-Semantic
Representations [28.65753036636082]
本稿では,既存の分類学における意味的特徴と構造的情報の両方を効果的に活用する新しい分類学補完フレームワークを提案する。
分類エンリッチは,(1)概念の意味的意味と分類学的関係を,強力な事前学習言語モデルに基づいて組み込んだ分類記述型埋め込み,(2)分類の構造情報を符号化して候補位置表現を学習する分類認識シーケンシャルエンコーダの4つの構成要素から構成される。
異なるドメインからの4つの大規模な実世界のデータセットの実験は、TaxoEnrichがすべての評価指標の中で最高のパフォーマンスを達成し、過去の最先端よりも大きなマージンでパフォーマンスを向上していることを示している。
論文 参考訳(メタデータ) (2022-02-10T08:10:43Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Path Based Hierarchical Clustering on Knowledge Graphs [1.713291434132985]
対象クラスタの階層化を誘導する新しい手法を提案する。
この階層上のクラスタに対象を割り当てる前に、まずタグ階層を構築します。
実世界の3つのデータセット上で,コヒーレントクラスタ階層を誘導する手法の能力を定量的に示す。
論文 参考訳(メタデータ) (2021-09-27T16:42:43Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。