論文の概要: Natural Language Processing Models for Robust Document Categorization
- arxiv url: http://arxiv.org/abs/2602.20336v1
- Date: Mon, 23 Feb 2026 20:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.522873
- Title: Natural Language Processing Models for Robust Document Categorization
- Title(参考訳): ロバスト文書分類のための自然言語処理モデル
- Authors: Radoslaw Roszczyk, Pawel Tecza, Maciej Stodolski, Krzysztof Siwek,
- Abstract要約: この研究は、AIを現実世界の自動化パイプラインに統合する際の重要な考慮事項である、分類精度と計算効率のバランスに重点を置いている。
Naive Bayes分類器、双方向LSTMネットワーク、微調整変圧器ベースBERTモデルの3つのモデルについて検討した。
BERTは99%を超える高い精度を達成したが、トレーニング時間を大幅に長くし、計算資源を大きくした。
BiLSTMモデルは強い妥協をもたらし、およそ98.56%の精度を達成し、適度なトレーニングコストを維持し、強い文脈理解を提供した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents an evaluation of several machine learning methods applied to automated text classification, alongside the design of a demonstrative system for unbalanced document categorization and distribution. The study focuses on balancing classification accuracy with computational efficiency, a key consideration when integrating AI into real world automation pipelines. Three models of varying complexity were examined: a Naive Bayes classifier, a bidirectional LSTM network, and a fine tuned transformer based BERT model. The experiments reveal substantial differences in performance. BERT achieved the highest accuracy, consistently exceeding 99\%, but required significantly longer training times and greater computational resources. The BiLSTM model provided a strong compromise, reaching approximately 98.56\% accuracy while maintaining moderate training costs and offering robust contextual understanding. Naive Bayes proved to be the fastest to train, on the order of milliseconds, yet delivered the lowest accuracy, averaging around 94.5\%. Class imbalance influenced all methods, particularly in the recognition of minority categories. A fully functional demonstrative system was implemented to validate practical applicability, enabling automated routing of technical requests with throughput unattainable through manual processing. The study concludes that BiLSTM offers the most balanced solution for the examined scenario, while also outlining opportunities for future improvements and further exploration of transformer architectures.
- Abstract(参考訳): 本稿では,非バランスな文書分類と分散のための実証システムの設計とともに,自動テキスト分類に適用した機械学習手法の評価を行う。
この研究は、AIを現実世界の自動化パイプラインに統合する際の重要な考慮事項である、分類精度と計算効率のバランスに重点を置いている。
Naive Bayes分類器、双方向LSTMネットワーク、微調整変圧器ベースBERTモデルの3つのモデルについて検討した。
実験により、性能に大きな違いが示された。
BERTは99\%を超える最高精度を達成したが、トレーニング時間を大幅に長くし、より大きな計算資源を必要とした。
BiLSTMモデルは強い妥協をもたらし、およそ98.56 %の精度を達成し、適度なトレーニングコストを維持し、強い文脈理解を提供する。
ネイブ・ベイズ(Naive Bayes)は、ミリ秒の順に列車を走らせるのが最速であったが、平均約94.5\%の精度を達成した。
階級不均衡はあらゆる方法、特に少数民族の認識に影響を及ぼした。
実用的な適用性を検証するために,手動処理によるスループットの確保が不可能な技術的要求の自動ルーティングを実現するために,完全に機能的な実証システムを実装した。
この研究は、BiLSTMが検証されたシナリオに対して最もバランスのとれたソリューションを提供すると同時に、将来の改善とトランスフォーマーアーキテクチャのさらなる探索の機会を概説していると結論付けている。
関連論文リスト
- Hybrid Synthetic Data Generation with Domain Randomization Enables Zero-Shot Vision-Based Part Inspection Under Extreme Class Imbalance [3.7696918637188817]
堅牢な機械学習モデルのトレーニングには、大量の高品質なラベル付きデータが必要である。
欠陥サンプルは本質的に稀であり、モデル性能を低下させる深刻なクラス不均衡を引き起こす。
合成データ生成は、大きく、バランスよく、完全に注釈付けされたデータセットの作成を可能にすることで、有望なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-28T05:30:49Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - From Requirements to Test Cases: An NLP-Based Approach for High-Performance ECU Test Case Automation [0.5249805590164901]
本研究では,自然言語処理技術を用いて,自然言語要求を構造化されたテストケース仕様に変換する手法について検討する。
400個の特徴要素文書のデータセットを用いて、信号名や値などの重要な要素を抽出するための両方のアプローチを評価した。
Rule-Based 法は NER 法よりも優れており、95% の精度で単一信号でより単純な要求を満たすことができる。
論文 参考訳(メタデータ) (2025-05-01T14:23:55Z) - iFuzzyTL: Interpretable Fuzzy Transfer Learning for SSVEP BCI System [24.898026682692688]
本研究では,解釈可能なファジィ変換学習(iFuzzyTL)を利用した高度な分類手法について検討する。
iFuzzyTLは、ファジィ推論システムとアテンション機構を統合することで、人間の解釈可能な形式で入力信号処理と分類を洗練する。
モデルの有効性は3つのデータセットで示される。
論文 参考訳(メタデータ) (2024-10-16T06:07:23Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Efficient Learning of Accurate Surrogates for Simulations of Complex Systems [0.0]
サンプリング駆動サンプリングによって強化されたオンライン学習手法を提案する。
モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。
本手法を核物質のシミュレーションに適用し,高精度なサロゲートを確実に自動生成できることを実証する。
論文 参考訳(メタデータ) (2022-07-11T20:51:11Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - An Automated Knowledge Mining and Document Classification System with
Multi-model Transfer Learning [1.1852751647387592]
サービスマニュアル文書は、サービスエンジニアにガイドラインと知識を提供するため、エンジニアリング会社にとって不可欠である。
本稿では,新しい多モデル移動学習手法を用いた知識マイニングと文書分類システムを提案する。
論文 参考訳(メタデータ) (2021-06-24T03:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。