論文の概要: TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
- arxiv url: http://arxiv.org/abs/2506.10737v1
- Date: Thu, 12 Jun 2025 14:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.777199
- Title: TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
- Title(参考訳): TaxoAdapt:LLMに基づく多次元分類体系の構築と研究コーパスの展開
- Authors: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han,
- Abstract要約: TaxoAdaptは、LLMの生成した分類を、複数の次元にわたる与えられたコーパスに適応するフレームワークである。
我々は、さまざまなコンピュータサイエンスカンファレンスにおいて、最先端のパフォーマンスを実演する。
- 参考スコア(独自算出の注目度): 34.103517830260365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus' topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.
- Abstract(参考訳): 科学分野の急速な進化は、科学文献の整理と検索の課題をもたらす。
専門家による分類学は伝統的にこのニーズに対処してきたが、そのプロセスは時間がかかり高価である。
さらに,最近の自動分類構築手法は,(1)特定のコーパスに過度に頼っているか,(2)汎用性を犠牲にしているか,あるいは(2)事前学習データセットに含まれる大規模言語モデル(LLM)の一般的な知識に大きく依存している。
さらに、これらのアプローチは、単一の研究論文が複数の次元(例えば、方法論、新しいタスク、評価指標、ベンチマーク)に寄与する、科学文献の多面的な性質を説明できない。
これらのギャップに対処するために,LLM生成した分類を複数の次元にわたる与えられたコーパスに動的に適用するフレームワークであるTaxoAdaptを提案する。
TaxoAdaptは反復的な階層分類を行い、コーパスのトピック分布に基づいて分類の幅と深さを拡大する。
我々は、科学分野の進化を構造化し、捉える能力を示すために、長年にわたって様々なコンピュータサイエンスカンファレンスを通じて最先端のパフォーマンスを実証した。
多次元法として、TaxoAdaptは26.51%の粒度保存と50.41%のコヒーレントな分類法を生成する。
関連論文リスト
- Science Hierarchography: Hierarchical Organization of Science Literature [20.182213614072836]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HARCHOGRAPHYを動機付けている。
我々は,SCIENCE HIERARCHOGRAPHYの目標を達成するために,様々なアルゴリズムを開発した。
その結果、この構造化されたアプローチは解釈可能性を高め、トレンド発見をサポートし、従来の探索手法を超えて科学的文献を探索するための代替手段を提供することが示された。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale? [1.0562108865927007]
大規模言語モデル(LLM)は、多ラベル分類のような複雑なタスクにおいて大きな可能性を証明している。
これらの課題を克服するために,LLMの強みと高密度検索手法を組み合わせる手法を提案する。
複数の分野にまたがる大規模プリプリントリポジトリであるSSRNにおいて,本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-12-06T15:51:22Z) - Are Large Language Models a Good Replacement of Taxonomies? [25.963448807848746]
大きな言語モデル(LLM)は、知識を内部化し、自然言語の質問に答える素晴らしい能力を示している。
知識グラフのスキーマ(つまり分類学)がLLMによって時代遅れにされているかどうかを問う。
論文 参考訳(メタデータ) (2024-06-17T01:21:50Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Using Full-text Content of Academic Articles to Build a Methodology
Taxonomy of Information Science in China [10.949304105928286]
本研究は情報科学の方法論分類法を構築するための新しい概念を提供する。
提案手法は従来の手法よりも詳細に分類され,分類の更新速度が向上した。
論文 参考訳(メタデータ) (2021-01-20T01:56:43Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。