論文の概要: The Text Classification Pipeline: Starting Shallow going Deeper
- arxiv url: http://arxiv.org/abs/2501.00174v2
- Date: Thu, 20 Mar 2025 19:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:39.436877
- Title: The Text Classification Pipeline: Starting Shallow going Deeper
- Title(参考訳): テキスト分類パイプライン: より深層化を始める
- Authors: Marco Siino, Ilenia Tinnirello, Marco La Cascia,
- Abstract要約: 過去10年間、ディープラーニングはテキスト分類に革命をもたらした。
英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
- 参考スコア(独自算出の注目度): 4.97309503788908
- License:
- Abstract: Text classification stands as a cornerstone within the realm of Natural Language Processing (NLP), particularly when viewed through computer science and engineering. The past decade has seen deep learning revolutionize text classification, propelling advancements in text retrieval, categorization, information extraction, and summarization. The scholarly literature includes datasets, models, and evaluation criteria, with English being the predominant language of focus, despite studies involving Arabic, Chinese, Hindi, and others. The efficacy of text classification models relies heavily on their ability to capture intricate textual relationships and non-linear correlations, necessitating a comprehensive examination of the entire text classification pipeline. In the NLP domain, a plethora of text representation techniques and model architectures have emerged, with Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs) at the forefront. These models are adept at transforming extensive textual data into meaningful vector representations encapsulating semantic information. The multidisciplinary nature of text classification, encompassing data mining, linguistics, and information retrieval, highlights the importance of collaborative research to advance the field. This work integrates traditional and contemporary text mining methodologies, fostering a holistic understanding of text classification.
- Abstract(参考訳): テキスト分類は自然言語処理(NLP)の領域において、特にコンピュータ科学と工学を通して見るときの基礎となる。
過去10年間、ディープラーニングはテキスト分類に革命をもたらし、テキスト検索、分類、情報抽出、要約の進歩を推進してきた。
学術文献にはデータセット、モデル、評価基準が含まれており、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、英語が主な焦点言語である。
テキスト分類モデルの有効性は、複雑なテキスト関係と非線形相関を捉える能力に大きく依存しており、テキスト分類パイプライン全体の包括的な検証が必要である。
NLPドメインでは、Large Language Models (LLMs) とGenerative Pre-trained Transformer (GPTs) が最前線にある。
これらのモデルは、広範囲のテキストデータを意味のあるベクトル表現に変換し、意味情報をカプセル化する。
データマイニング、言語学、情報検索を含むテキスト分類の多分野的な性質は、分野を前進させるための共同研究の重要性を強調している。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
関連論文リスト
- Research Experiment on Multi-Model Comparison for Chinese Text Classification Tasks [12.087640144194246]
本稿では,中国語のテキスト分類タスクに対して,TextCNN,TextRNN,FastTextの3つのディープラーニングモデルの比較研究を行う。
これらのモデルの性能を評価し,異なるシナリオにおける適用性について論じる。
論文 参考訳(メタデータ) (2024-12-25T13:54:40Z) - Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese [4.772998830872483]
古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T13:14:45Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。