論文の概要: Combining Language and Topic Models for Hierarchical Text Classification
- arxiv url: http://arxiv.org/abs/2507.16490v1
- Date: Tue, 22 Jul 2025 11:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.096034
- Title: Combining Language and Topic Models for Hierarchical Text Classification
- Title(参考訳): 階層型テキスト分類のための言語モデルとトピックモデルの組み合わせ
- Authors: Jaco du Toit, Marcel Dunaiski,
- Abstract要約: 本稿では、PLMとトピックモデルを用いて、分類モデルのトレーニングに使用されるテキスト文書から特徴を抽出する。
トピックモデルから抽出した特徴を用いた場合, PLMで得られた特徴のみを用いた場合に比べて, 分類性能が低下することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical text classification (HTC) is a natural language processing task which has the objective of categorising text documents into a set of classes from a predefined structured class hierarchy. Recent HTC approaches use various techniques to incorporate the hierarchical class structure information with the natural language understanding capabilities of pre-trained language models (PLMs) to improve classification performance. Furthermore, using topic models along with PLMs to extract features from text documents has been shown to be an effective approach for multi-label text classification tasks. The rationale behind the combination of these feature extractor models is that the PLM captures the finer-grained contextual and semantic information while the topic model obtains high-level representations which consider the corpus of documents as a whole. In this paper, we use a HTC approach which uses a PLM and a topic model to extract features from text documents which are used to train a classification model. Our objective is to determine whether the combination of the features extracted from the two models is beneficial to HTC performance in general. In our approach, the extracted features are passed through separate convolutional layers whose outputs are combined and passed to a label-wise attention mechanisms which obtains label-specific document representations by weighing the most important features for each class separately. We perform comprehensive experiments on three HTC benchmark datasets and show that using the features extracted from the topic model generally decreases classification performance compared to only using the features obtained by the PLM. In contrast to previous work, this shows that the incorporation of features extracted from topic models for text classification tasks should not be assumed beneficial.
- Abstract(参考訳): 階層的なテキスト分類(HTC)は、テキスト文書を事前に定義された構造化されたクラス階層からクラスに分類する目的を持つ自然言語処理タスクである。
最近のHTCのアプローチでは、階層的なクラス構造情報と事前学習された言語モデル(PLM)の自然言語理解機能を組み合わせて、分類性能を向上させるために様々な手法が採用されている。
さらに, PLM とともにトピックモデルを用いてテキスト文書から特徴を抽出することは, マルチラベルテキスト分類作業に有効な手法であることが示されている。
これらの特徴抽出モデルの組み合わせの背景にある理論的根拠は、PLMがよりきめ細かい文脈情報と意味情報をキャプチャし、トピックモデルは文書のコーパス全体を考慮したハイレベルな表現を取得することである。
本稿では,PLMとトピックモデルを用いたHTCのアプローチを用いて,分類モデルのトレーニングに使用されるテキスト文書から特徴を抽出する。
この2つのモデルから抽出した特徴の組み合わせが一般にHTCのパフォーマンスに有益かどうかを判断することを目的としている。
提案手法では, 抽出した特徴を, 出力を結合した分離畳み込み層に伝達し, 各クラスにおいて最も重要な特徴を個別に評価することにより, ラベル固有の文書表現を得るラベルワイドアテンション機構に伝達する。
3つのHTCベンチマークデータセットの総合的な実験を行い、トピックモデルから抽出した特徴を用いることで、PLMで得られた特徴のみを使用する場合に比べて分類性能が低下することを示した。
従来の研究とは対照的に,テキスト分類タスクのトピックモデルから抽出した特徴を組み込むことは,有益とみなすべきではない。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Introducing Three New Benchmark Datasets for Hierarchical Text Classification [0.0]
研究出版分野において,HTCのベンチマークデータセットを新たに3つ導入する。
本稿では,データセットの信頼性とロバスト性を改善するために,それらの分類を組み合わせるアプローチを提案する。
クラスタリングに基づく分析によって作成した3つのデータセットを評価し,提案手法が高品質なデータセットを実現することを示す。
論文 参考訳(メタデータ) (2024-11-28T13:06:48Z) - Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Feature Extraction Using Deep Generative Models for Bangla Text
Classification on a New Comprehensive Dataset [0.0]
バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。
我々は7つのカテゴリで212,184のBangla文書の包括的なデータセットを収集し、注釈を付け、作成し、公開しました。
論文 参考訳(メタデータ) (2023-08-21T22:18:09Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。