論文の概要: The Text Classification Pipeline: Starting Shallow going Deeper
- arxiv url: http://arxiv.org/abs/2501.00174v1
- Date: Mon, 30 Dec 2024 23:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:15.720644
- Title: The Text Classification Pipeline: Starting Shallow going Deeper
- Title(参考訳): テキスト分類パイプライン: より深層化を始める
- Authors: Marco Siino, Ilenia Tinnirello, Marco La Cascia,
- Abstract要約: テキスト分類(TC)は自然言語処理(NLP)の領域の基盤となる。
このモノグラフは、TCパイプラインの詳細な調査を提供し、特にTCモデル全体のパフォーマンスに対する各コンポーネントの影響を評価することに重点を置いています。
パイプラインには、最先端データセット、テキスト前処理技術、テキスト表現方法、分類モデル、評価指標、現在の結果、今後のトレンドが含まれている。
- 参考スコア(独自算出の注目度): 4.97309503788908
- License:
- Abstract: Text Classification (TC) stands as a cornerstone within the realm of Natural Language Processing (NLP), particularly when viewed through the lens of computer science and engineering. The past decade has seen deep learning revolutionize TC, propelling advancements in text retrieval, categorization, information extraction, and summarization. The scholarly literature is rich with datasets, models, and evaluation criteria, with English being the predominant language of focus, despite studies involving Arabic, Chinese, Hindi, and others. The efficacy of TC models relies heavily on their ability to capture intricate textual relationships and nonlinear correlations, necessitating a comprehensive examination of the entire TC pipeline. This monograph provides an in-depth exploration of the TC pipeline, with a particular emphasis on evaluating the impact of each component on the overall performance of TC models. The pipeline includes state-of-the-art datasets, text preprocessing techniques, text representation methods, classification models, evaluation metrics, current results and future trends. Each chapter meticulously examines these stages, presenting technical innovations and significant recent findings. The work critically assesses various classification strategies, offering comparative analyses, examples, case studies, and experimental evaluations. These contributions extend beyond a typical survey, providing a detailed and insightful exploration of TC.
- Abstract(参考訳): テキスト分類(TC)は、特にコンピュータ科学と工学のレンズを通して見る場合、自然言語処理(NLP)の領域の基盤となる。
過去10年間、ディープラーニングはTCに革命をもたらし、テキスト検索、分類、情報抽出、要約の進歩を促してきた。
学術文献はデータセット、モデル、評価基準に富み、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、英語が主要言語である。
TCモデルの有効性は、複雑なテキスト関係と非線形相関を捉える能力に大きく依存しており、TCパイプライン全体の包括的な検査が必要である。
このモノグラフは、TCパイプラインの詳細な調査を提供し、特にTCモデル全体のパフォーマンスに対する各コンポーネントの影響を評価することに重点を置いています。
パイプラインには、最先端データセット、テキスト前処理技術、テキスト表現方法、分類モデル、評価指標、現在の結果、今後のトレンドが含まれている。
各章は、これらのステージを慎重に調べ、技術的革新と最近の顕著な発見を提示する。
この研究は様々な分類戦略を批判的に評価し、比較分析、例、事例研究、実験的評価を提供する。
これらのコントリビューションは、典型的な調査を超えて、TCの詳細と洞察に富んだ調査を提供する。
関連論文リスト
- Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese [4.772998830872483]
古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T13:14:45Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。