論文の概要: The Text Classification Pipeline: Starting Shallow going Deeper
- arxiv url: http://arxiv.org/abs/2501.00174v1
- Date: Mon, 30 Dec 2024 23:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:31.36663
- Title: The Text Classification Pipeline: Starting Shallow going Deeper
- Title(参考訳): テキスト分類パイプライン: より深層化を始める
- Authors: Marco Siino, Ilenia Tinnirello, Marco La Cascia,
- Abstract要約: テキスト分類(TC)は自然言語処理(NLP)の領域の基盤となる。
このモノグラフは、TCパイプラインの詳細な調査を提供し、特にTCモデル全体のパフォーマンスに対する各コンポーネントの影響を評価することに重点を置いています。
パイプラインには、最先端データセット、テキスト前処理技術、テキスト表現方法、分類モデル、評価指標、現在の結果、今後のトレンドが含まれている。
- 参考スコア(独自算出の注目度): 4.97309503788908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Classification (TC) stands as a cornerstone within the realm of Natural Language Processing (NLP), particularly when viewed through the lens of computer science and engineering. The past decade has seen deep learning revolutionize TC, propelling advancements in text retrieval, categorization, information extraction, and summarization. The scholarly literature is rich with datasets, models, and evaluation criteria, with English being the predominant language of focus, despite studies involving Arabic, Chinese, Hindi, and others. The efficacy of TC models relies heavily on their ability to capture intricate textual relationships and nonlinear correlations, necessitating a comprehensive examination of the entire TC pipeline. This monograph provides an in-depth exploration of the TC pipeline, with a particular emphasis on evaluating the impact of each component on the overall performance of TC models. The pipeline includes state-of-the-art datasets, text preprocessing techniques, text representation methods, classification models, evaluation metrics, current results and future trends. Each chapter meticulously examines these stages, presenting technical innovations and significant recent findings. The work critically assesses various classification strategies, offering comparative analyses, examples, case studies, and experimental evaluations. These contributions extend beyond a typical survey, providing a detailed and insightful exploration of TC.
- Abstract(参考訳): テキスト分類(TC)は、特にコンピュータ科学と工学のレンズを通して見る場合、自然言語処理(NLP)の領域の基盤となる。
過去10年間、ディープラーニングはTCに革命をもたらし、テキスト検索、分類、情報抽出、要約の進歩を促してきた。
学術文献はデータセット、モデル、評価基準に富み、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、英語が主要言語である。
TCモデルの有効性は、複雑なテキスト関係と非線形相関を捉える能力に大きく依存しており、TCパイプライン全体の包括的な検査が必要である。
このモノグラフは、TCパイプラインの詳細な調査を提供し、特にTCモデル全体のパフォーマンスに対する各コンポーネントの影響を評価することに重点を置いています。
パイプラインには、最先端データセット、テキスト前処理技術、テキスト表現方法、分類モデル、評価指標、現在の結果、今後のトレンドが含まれている。
各章は、これらのステージを慎重に調べ、技術的革新と最近の顕著な発見を提示する。
この研究は様々な分類戦略を批判的に評価し、比較分析、例、事例研究、実験的評価を提供する。
これらのコントリビューションは、典型的な調査を超えて、TCの詳細と洞察に富んだ調査を提供する。
関連論文リスト
- Comprehensive Implementation of TextCNN for Enhanced Collaboration between Natural Language Processing and System Recommendation [1.7692743931394748]
本稿では,NLPの3つのコアタスクにおけるディープラーニングの適用状況について分析する。
テキスト生成、テキスト分類、意味解析において、敵対的手法がもたらす課題を考慮に入れている。
テキスト分類タスクに関する実証的研究は,対話型統合学習の有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T07:25:53Z) - Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese [4.772998830872483]
古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T13:14:45Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。
論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文 参考訳(メタデータ) (2023-09-24T21:49:51Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Classifying text using machine learning models and determining
conversation drift [4.785406121053965]
様々な種類のテキストの分析は、意味的意味と関連性の両方を理解するのに有用である。
テキスト分類は文書を分類する方法である。
コンピュータテキスト分類と自然言語処理を組み合わせて、テキストを集約して分析する。
論文 参考訳(メタデータ) (2022-11-15T18:09:45Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Exploring Context Generalizability in Citywide Crowd Mobility Prediction: An Analytic Framework and Benchmark [8.32409186492201]
本稿では,コンテキストの一般化性を評価するための統合分析フレームワークと大規模ベンチマークを提案する。
我々は,自転車の走行,地下鉄の乗客流,電気自動車の充電需要といった,群衆の移動予測タスクで実験を行った。
より多くのコンテキスト機能を使用すると、既存のコンテキストモデリング技術で予測がより良くなるとは限らない。
文脈モデリング手法では、ゲート単位を用いて生の文脈特徴を深部予測モデルに組み込むことで、優れた一般化性が得られる。
論文 参考訳(メタデータ) (2021-06-30T13:19:41Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。