論文の概要: Advances in Pre-trained Language Models for Domain-Specific Text Classification: A Systematic Review
- arxiv url: http://arxiv.org/abs/2510.17892v1
- Date: Sat, 18 Oct 2025 22:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.323338
- Title: Advances in Pre-trained Language Models for Domain-Specific Text Classification: A Systematic Review
- Title(参考訳): ドメイン特化テキスト分類のための事前学習言語モデルの進歩:体系的レビュー
- Authors: Zhyar Rzgar K. Rostam, Gábor Kertész,
- Abstract要約: 大規模言語モデル(LLM)は、NLPにおいて顕著な成功を収めた。
それらの精度は、特殊語彙、一意の文法構造、不均衡なデータ分布によって、ドメイン固有の文脈で悩まされる。
ドメイン固有テキスト分類における事前学習言語モデル(PLM)の利用について検討する。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential increase in scientific literature and online information necessitates efficient methods for extracting knowledge from textual data. Natural language processing (NLP) plays a crucial role in addressing this challenge, particularly in text classification tasks. While large language models (LLMs) have achieved remarkable success in NLP, their accuracy can suffer in domain-specific contexts due to specialized vocabulary, unique grammatical structures, and imbalanced data distributions. In this systematic literature review (SLR), we investigate the utilization of pre-trained language models (PLMs) for domain-specific text classification. We systematically review 41 articles published between 2018 and January 2024, adhering to the PRISMA statement (preferred reporting items for systematic reviews and meta-analyses). This review methodology involved rigorous inclusion criteria and a multi-step selection process employing AI-powered tools. We delve into the evolution of text classification techniques and differentiate between traditional and modern approaches. We emphasize transformer-based models and explore the challenges and considerations associated with using LLMs for domain-specific text classification. Furthermore, we categorize existing research based on various PLMs and propose a taxonomy of techniques used in the field. To validate our findings, we conducted a comparative experiment involving BERT, SciBERT, and BioBERT in biomedical sentence classification. Finally, we present a comparative study on the performance of LLMs in text classification tasks across different domains. In addition, we examine recent advancements in PLMs for domain-specific text classification and offer insights into future directions and limitations in this rapidly evolving domain.
- Abstract(参考訳): 科学文献やオンライン情報の指数関数的な増加は、テキストデータから知識を抽出する効率的な方法を必要とする。
自然言語処理(NLP)は、特にテキスト分類タスクにおいて、この問題に対処する上で重要な役割を果たす。
大規模言語モデル(LLM)は、NLPにおいて顕著な成功を収めているが、その精度は、特殊語彙、一意的な文法構造、不均衡なデータ分布によって、ドメイン固有の文脈で悩むことがある。
本稿では,事前学習言語モデル(PLM)のドメイン固有テキスト分類への応用について検討する。
我々は、2018年から2024年1月までに発行された41の論文を体系的にレビューし、PRISMA声明(体系的レビューとメタアナリシスの報告項目を参照)を順守した。
このレビュー手法は、AIツールを用いた厳格な包摂基準と多段階選択プロセスを含む。
テキスト分類技術の進化を探求し、従来のアプローチと現代的なアプローチを区別する。
我々はトランスフォーマーモデルを強調し、ドメイン固有のテキスト分類にLLMを使用する際の課題と考察を考察する。
さらに,様々なPLMに基づいて既存の研究を分類し,その分野におけるテクニックの分類法を提案する。
バイオメディカルテキスト分類におけるBERT,SciBERT,BioBERTの比較実験を行った。
最後に、異なる領域にわたるテキスト分類タスクにおけるLLMの性能の比較研究について述べる。
さらに、ドメイン固有のテキスト分類のためのPLMの最近の進歩について検討し、この急速に進化する領域における今後の方向性や限界についての洞察を提供する。
関連論文リスト
- Large Language Models for Healthcare Text Classification: A Systematic Review [4.8342038441006805]
大規模言語モデル(LLM)は、自然言語処理(NLP)のアプローチを根本的に変えた。
医療分野では、臨床ノートの分析、診断コーディング、その他のタスクにおいて、正確で費用効率のよいテキスト分類が不可欠である。
医療用テキストの自動分類にLLMを活用するために多くの研究がなされている。
論文 参考訳(メタデータ) (2025-03-03T04:16:13Z) - The Text Classification Pipeline: Starting Shallow going Deeper [4.97309503788908]
過去10年間、ディープラーニングはテキスト分類に革命をもたらした。
英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
論文 参考訳(メタデータ) (2024-12-30T23:01:19Z) - Fine-Tuning Large Language Models for Scientific Text Classification: A Comparative Study [0.42970700836450487]
トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて大きな成功を収めている。
しかし、汎用LLMは、専門用語や不均衡なデータのような独特な課題のために、科学的なテキストのようなドメイン固有のコンテンツに苦しむことが多い。
本研究では,SciBERT,BioBERT,BlueBERTを3つのデータセットに微調整し,その性能を科学的テキスト分類で評価する。
論文 参考訳(メタデータ) (2024-11-27T18:58:53Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics [2.3742710594744105]
SciPromptは,低リソーステキスト分類タスクに対して,科学的トピック関連用語を自動的に検索するフレームワークである。
本手法は, ほとんど, ゼロショット設定下での科学的テキスト分類作業において, 最先端, 即時的な微調整法より優れる。
論文 参考訳(メタデータ) (2024-10-02T18:45:04Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。