論文の概要: The Text Classification Pipeline: Starting Shallow going Deeper
- arxiv url: http://arxiv.org/abs/2501.00174v2
- Date: Thu, 20 Mar 2025 19:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.893611
- Title: The Text Classification Pipeline: Starting Shallow going Deeper
- Title(参考訳): テキスト分類パイプライン: より深層化を始める
- Authors: Marco Siino, Ilenia Tinnirello, Marco La Cascia,
- Abstract要約: 過去10年間、ディープラーニングはテキスト分類に革命をもたらした。
英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
- 参考スコア(独自算出の注目度): 4.97309503788908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification stands as a cornerstone within the realm of Natural Language Processing (NLP), particularly when viewed through computer science and engineering. The past decade has seen deep learning revolutionize text classification, propelling advancements in text retrieval, categorization, information extraction, and summarization. The scholarly literature includes datasets, models, and evaluation criteria, with English being the predominant language of focus, despite studies involving Arabic, Chinese, Hindi, and others. The efficacy of text classification models relies heavily on their ability to capture intricate textual relationships and non-linear correlations, necessitating a comprehensive examination of the entire text classification pipeline. In the NLP domain, a plethora of text representation techniques and model architectures have emerged, with Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs) at the forefront. These models are adept at transforming extensive textual data into meaningful vector representations encapsulating semantic information. The multidisciplinary nature of text classification, encompassing data mining, linguistics, and information retrieval, highlights the importance of collaborative research to advance the field. This work integrates traditional and contemporary text mining methodologies, fostering a holistic understanding of text classification.
- Abstract(参考訳): テキスト分類は自然言語処理(NLP)の領域において、特にコンピュータ科学と工学を通して見るときの基礎となる。
過去10年間、ディープラーニングはテキスト分類に革命をもたらし、テキスト検索、分類、情報抽出、要約の進歩を推進してきた。
学術文献にはデータセット、モデル、評価基準が含まれており、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、英語が主な焦点言語である。
テキスト分類モデルの有効性は、複雑なテキスト関係と非線形相関を捉える能力に大きく依存しており、テキスト分類パイプライン全体の包括的な検証が必要である。
NLPドメインでは、Large Language Models (LLMs) とGenerative Pre-trained Transformer (GPTs) が最前線にある。
これらのモデルは、広範囲のテキストデータを意味のあるベクトル表現に変換し、意味情報をカプセル化する。
データマイニング、言語学、情報検索を含むテキスト分類の多分野的な性質は、分野を前進させるための共同研究の重要性を強調している。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
関連論文リスト
- Comprehensive Implementation of TextCNN for Enhanced Collaboration between Natural Language Processing and System Recommendation [1.7692743931394748]
本稿では,NLPの3つのコアタスクにおけるディープラーニングの適用状況について分析する。
テキスト生成、テキスト分類、意味解析において、敵対的手法がもたらす課題を考慮に入れている。
テキスト分類タスクに関する実証的研究は,対話型統合学習の有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T07:25:53Z) - Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese [4.772998830872483]
古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T13:14:45Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。
論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文 参考訳(メタデータ) (2023-09-24T21:49:51Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Classifying text using machine learning models and determining
conversation drift [4.785406121053965]
様々な種類のテキストの分析は、意味的意味と関連性の両方を理解するのに有用である。
テキスト分類は文書を分類する方法である。
コンピュータテキスト分類と自然言語処理を組み合わせて、テキストを集約して分析する。
論文 参考訳(メタデータ) (2022-11-15T18:09:45Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Exploring Context Generalizability in Citywide Crowd Mobility Prediction: An Analytic Framework and Benchmark [8.32409186492201]
本稿では,コンテキストの一般化性を評価するための統合分析フレームワークと大規模ベンチマークを提案する。
我々は,自転車の走行,地下鉄の乗客流,電気自動車の充電需要といった,群衆の移動予測タスクで実験を行った。
より多くのコンテキスト機能を使用すると、既存のコンテキストモデリング技術で予測がより良くなるとは限らない。
文脈モデリング手法では、ゲート単位を用いて生の文脈特徴を深部予測モデルに組み込むことで、優れた一般化性が得られる。
論文 参考訳(メタデータ) (2021-06-30T13:19:41Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。