論文の概要: Hierarchical Text Classification with LLM-Refined Taxonomies
- arxiv url: http://arxiv.org/abs/2601.18375v1
- Date: Mon, 26 Jan 2026 11:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.795792
- Title: Hierarchical Text Classification with LLM-Refined Taxonomies
- Title(参考訳): LLM-Refined Taxonomiesを用いた階層的テキスト分類
- Authors: Jonas Golde, Nicolaas Jedema, Ravi Krishnan, Phong Le,
- Abstract要約: 大規模な言語モデル(LLM)を使用して,リネームやマージ,分割,リオーダーといった操作全体を変換するフレームワークであるTaxMorphを提案する。
3つのHTCベンチマークによる実験では、LLMの精製は、F1の2.9pp.までの様々な設定において、一貫して人為的に修正されたものよりも優れていた。
- 参考スコア(独自算出の注目度): 1.5773713889677439
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hierarchical text classification (HTC) depends on taxonomies that organize labels into structured hierarchies. However, many real-world taxonomies introduce ambiguities, such as identical leaf names under similar parent nodes, which prevent language models (LMs) from learning clear decision boundaries. In this paper, we present TaxMorph, a framework that uses large language models (LLMs) to transform entire taxonomies through operations such as renaming, merging, splitting, and reordering. Unlike prior work, our method revises the full hierarchy to better match the semantics encoded by LMs. Experiments across three HTC benchmarks show that LLM-refined taxonomies consistently outperform human-curated ones in various settings up to +2.9pp. in F1. To better understand these improvements, we compare how well LMs can assign leaf nodes to parent nodes and vice versa across human-curated and LLM-refined taxonomies. We find that human-curated taxonomies lead to more easily separable clusters in embedding space. However, the LLM-refined taxonomies align more closely with the model's actual confusion patterns during classification. In other words, even though they are harder to separate, they better reflect the model's inductive biases. These findings suggest that LLM-guided refinement creates taxonomies that are more compatible with how models learn, improving HTC performance.
- Abstract(参考訳): 階層的テキスト分類(HTC)は、ラベルを構造化階層に分類する分類に依存している。
しかし、多くの現実世界の分類体系は、同じ親ノードの下で同じ葉の名前のような曖昧さを導入しており、言語モデル(LM)が明確な決定境界を学習することを妨げている。
本稿では,大規模な言語モデル(LLM)を用いて,リネームやマージ,分割,リオーダーといった操作を通じて,すべての分類を変換するフレームワークであるTaxMorphを提案する。
従来の手法とは違って,本手法では,LMが符号化したセマンティクスをよりよく一致させるために,完全な階層を改訂する。
3つのHTCベンチマークでの実験では、LLMで精製された分類群は、様々な設定で常に人為的な分類を上回り、+2.9ppまで性能が向上している。
F1。
これらの改善をよりよく理解するために、LMがリーフノードを親ノードに割り当てるかどうかを比較し、その逆も人為的な分類法とLLMで精製した分類法で比較する。
人為的な分類は, 組込み空間において, より容易に分離可能なクラスターを生じさせる。
しかし、LLMで精製された分類体系は、分類中のモデルの実際の混乱パターンとより密接に一致している。
言い換えれば、分離するのが難しくても、モデルの帰納的バイアスを反映する方がよいのです。
以上の結果から, LLM指導による改良により, モデル学習と互換性が向上し, HTCのパフォーマンスが向上したことが示唆された。
関連論文リスト
- QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Taxonomy Tree Generation from Citation Graph [15.188580557890942]
HiGTLは、人為的な指示や好みのトピックによってガイドされる、新しいエンドツーエンドフレームワークである。
我々は,各クラスタに中心的な概念を反復的に生成する,新しい分類ノード言語化戦略を開発した。
実験により、HiGTLはコヒーレントで高品質な概念を効果的に生成することが示された。
論文 参考訳(メタデータ) (2024-10-02T13:02:03Z) - Are Large Language Models a Good Replacement of Taxonomies? [25.963448807848746]
大きな言語モデル(LLM)は、知識を内部化し、自然言語の質問に答える素晴らしい能力を示している。
知識グラフのスキーマ(つまり分類学)がLLMによって時代遅れにされているかどうかを問う。
論文 参考訳(メタデータ) (2024-06-17T01:21:50Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、Webコンテンツ分析やセマンティックインデクシングといった幅広いアプリケーションを用いた基本的なWebテキストマイニングタスクである。
初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。
人間の努力を軽減するため、我々は最小限の監督力で階層的なテキスト分類に取り組む:各ノードのクラス名のみを唯一の監督力として利用する。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Using Zero-shot Prompting in the Automatic Creation and Expansion of
Topic Taxonomies for Tagging Retail Banking Transactions [0.0]
本研究は、命令ベース微調整LDMを用いたトピックの構築と拡張のための教師なし手法を提案する(大規模言語モデル)。
既存の分類を新しい用語で拡張するために、ゼロショットプロンプトを使用して、新しいノードを追加する場所を見つける。
得られたタグを使って、小売銀行のデータセットから商人を特徴づけるタグを割り当てます。
論文 参考訳(メタデータ) (2024-01-08T00:27:16Z) - Octet: Online Catalog Taxonomy Enrichment with Self-Supervision [67.26804972901952]
オンラインカタログエンリッチメンTのための自己教師型エンドツーエンドフレームワークOctopを提案する。
本稿では,用語抽出のためのシーケンスラベリングモデルをトレーニングし,分類構造を捉えるためにグラフニューラルネットワーク(GNN)を用いることを提案する。
Octetは、オンラインカタログを、オープンワールド評価の2倍に強化する。
論文 参考訳(メタデータ) (2020-06-18T04:53:07Z) - STEAM: Self-Supervised Taxonomy Expansion with Mini-Paths [53.45704816829921]
本稿では,STEAMという自己管理型分類拡張モデルを提案する。
STEAMは自然の自己超越信号を生成し、ノードアタッチメント予測タスクを定式化する。
実験の結果、STEAMは11.6%の精度と7.0%の相反ランクで、最先端の分類法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-18T00:32:53Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。