論文の概要: TaxoAlign: Scholarly Taxonomy Generation Using Language Models
- arxiv url: http://arxiv.org/abs/2510.17263v1
- Date: Mon, 20 Oct 2025 07:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.027939
- Title: TaxoAlign: Scholarly Taxonomy Generation Using Language Models
- Title(参考訳): TaxoAlign: 言語モデルを用いたScholarly Taxonomy生成
- Authors: Avishek Lahiri, Yufang Hou, Debarshi Kumar Sanyal,
- Abstract要約: 分類学は、研究者が階層的な方法で知識を構造化し、ナビゲートするのを助ける重要な役割を担っている。
既存の自動サーベイ生成手法は、生成したサーベイの構造と人間の専門家が書いたものとは比較しない。
本研究では,人為的・自動的間のギャップを埋めることのできる自動分類法を提案する。
- 参考スコア(独自算出の注目度): 14.54227999705238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taxonomies play a crucial role in helping researchers structure and navigate knowledge in a hierarchical manner. They also form an important part in the creation of comprehensive literature surveys. The existing approaches to automatic survey generation do not compare the structure of the generated surveys with those written by human experts. To address this gap, we present our own method for automated taxonomy creation that can bridge the gap between human-generated and automatically-created taxonomies. For this purpose, we create the CS-TaxoBench benchmark which consists of 460 taxonomies that have been extracted from human-written survey papers. We also include an additional test set of 80 taxonomies curated from conference survey papers. We propose TaxoAlign, a three-phase topic-based instruction-guided method for scholarly taxonomy generation. Additionally, we propose a stringent automated evaluation framework that measures the structural alignment and semantic coherence of automatically generated taxonomies in comparison to those created by human experts. We evaluate our method and various baselines on CS-TaxoBench, using both automated evaluation metrics and human evaluation studies. The results show that TaxoAlign consistently surpasses the baselines on nearly all metrics. The code and data can be found at https://github.com/AvishekLahiri/TaxoAlign.
- Abstract(参考訳): 分類学は、研究者が階層的な方法で知識を構造化し、ナビゲートするのを助ける重要な役割を担っている。
また、総合的な文献調査の作成にも重要な役割を担っている。
自動サーベイ生成への既存のアプローチは、生成されたサーベイの構造と人間の専門家が書いたものとを比較していない。
このギャップに対処するため、我々は人為的な分類学と自動的な分類学のギャップを埋めることのできる自動分類学の独自の方法を提案する。
この目的のために,人間による調査論文から抽出した460の分類群からなるCS-TaxoBenchベンチマークを作成する。
また、会議調査論文から収集した80の分類群の追加テストも含んでいます。
本稿では,3段階のトピックに基づく指導指導指導法であるTaxoAlignを提案する。
また,人的専門家が作成したものと比較して,自動分類群の構造的アライメントと意味的コヒーレンスを計測する,厳密な自動評価フレームワークを提案する。
本手法とCS-TaxoBenchの各種ベースラインを自動評価指標と人的評価指標を用いて評価した。
結果は、TaxoAlignがほぼすべての指標のベースラインを一貫して上回っていることを示している。
コードとデータはhttps://github.com/AvishekLahiri/TaxoAlignにある。
関連論文リスト
- Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [63.97125827026949]
本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。
分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。
9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-13T13:37:54Z) - Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [34.88498567698853]
Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。
実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-02-12T03:05:54Z) - Using Zero-shot Prompting in the Automatic Creation and Expansion of
Topic Taxonomies for Tagging Retail Banking Transactions [0.0]
本研究は、命令ベース微調整LDMを用いたトピックの構築と拡張のための教師なし手法を提案する(大規模言語モデル)。
既存の分類を新しい用語で拡張するために、ゼロショットプロンプトを使用して、新しいノードを追加する場所を見つける。
得られたタグを使って、小売銀行のデータセットから商人を特徴づけるタグを割り当てます。
論文 参考訳(メタデータ) (2024-01-08T00:27:16Z) - RaTE: a Reproducible automatic Taxonomy Evaluation by Filling the Gap [0.0]
我々は、自動分類学評価(ATE)は分類学の構築と同じくらい重要であると論じている。
本稿では,大規模な事前学習型言語モデルに依存する,ラベルなしの自動分類法であるRaTEを提案する。
論文 参考訳(メタデータ) (2023-07-19T01:37:31Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Large-scale Taxonomy Induction Using Entity and Word Embeddings [13.30719395448771]
本論文では,実体とテキスト埋め込みを用いた知識からの自動推定抽出手法 TIEmb を提案する。
本稿では,Wide Web の大部分から抽出されたクラス置換関係のデータベースである WebIsA データベースにアプローチを適用し,Person and Place ドメインの階層を抽出する。
論文 参考訳(メタデータ) (2021-05-04T05:53:12Z) - Who Should Go First? A Self-Supervised Concept Sorting Model for
Improving Taxonomy Expansion [50.794640012673064]
データとビジネスの範囲が実際のアプリケーションで拡大するにつれ、既存の概念を組み込むために拡張する必要がある。
分類学の拡張に関する以前の研究は、新しい概念を独立して同時に処理し、それらの間の潜在的な関係と操作を挿入する適切な順序を無視します。
本稿では,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。
論文 参考訳(メタデータ) (2021-04-08T11:00:43Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。