論文の概要: CTDGSI: A comprehensive exploitation of instance selection methods for automatic text classification. VII Concurso de Teses, Dissertações e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informação
- arxiv url: http://arxiv.org/abs/2506.07169v1
- Date: Sun, 08 Jun 2025 14:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.698638
- Title: CTDGSI: A comprehensive exploitation of instance selection methods for automatic text classification. VII Concurso de Teses, Dissertações e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informação
- Title(参考訳): CTDGSI: 自動テキスト分類のための総合的なインスタンス選択手法の活用 VII Concurso de Teses, Dissertaç'es e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informaão
- Authors: Washington Cunha, Leonardo Rocha, Marcos André Gonçalves,
- Abstract要約: この論文は、インスタンス選択(IS)として知られる、包括的でないNLPデータエンジニアリング技術に焦点を当てている。
ISの目標は、トレーニングされたモデルの有効性を維持しながら、ノイズや冗長なインスタンスを削除することで、トレーニングセットのサイズを減らすことである。
我々のソリューションは1.67倍(最大2.46倍)のスピードアップ改善を示し、数十万のドキュメントを持つデータセットにスケーラブルになった。
- 参考スコア(独自算出の注目度): 9.069939079065298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in Natural Language Processing (NLP) has been dictated by the rule of more: more data, more computing power and more complexity, best exemplified by the Large Language Models. However, training (or fine-tuning) large dense models for specific applications usually requires significant amounts of computing resources. This \textbf{Ph.D. dissertation} focuses on an under-investi\-gated NLP data engineering technique, whose potential is enormous in the current scenario known as Instance Selection (IS). The IS goal is to reduce the training set size by removing noisy or redundant instances while maintaining the effectiveness of the trained models and reducing the training process cost. We provide a comprehensive and scientifically sound comparison of IS methods applied to an essential NLP task -- Automatic Text Classification (ATC), considering several classification solutions and many datasets. Our findings reveal a significant untapped potential for IS solutions. We also propose two novel IS solutions that are noise-oriented and redundancy-aware, specifically designed for large datasets and transformer architectures. Our final solution achieved an average reduction of 41\% in training sets, while maintaining the same levels of effectiveness in all datasets. Importantly, our solutions demonstrated speedup improvements of 1.67x (up to 2.46x), making them scalable for datasets with hundreds of thousands of documents.
- Abstract(参考訳): 自然言語処理(NLP)の進歩は、より多くのデータ、より多くの計算能力、より複雑さという、より大規模な言語モデルによって最もよく例示されるルールによって規定されている。
しかしながら、特定のアプリケーションのためのトレーニング(または微調整)の大きな高密度モデルは通常、かなりの量の計算資源を必要とする。
これは、textbf{Ph.D。
Dissertation} は、現在 Instance Selection (IS) として知られるシナリオにおいて大きな可能性を秘めている、包括的でないNLPデータエンジニアリング技術に焦点を当てている。
ISの目標は、トレーニングモデルの有効性を維持しながら、ノイズや冗長なインスタンスを取り除き、トレーニングプロセスコストを削減することで、トレーニングセットのサイズを小さくすることにある。
我々は、いくつかの分類解と多くのデータセットを考慮して、必須のNLPタスクであるATC(Automatic Text Classification)に適用されるISメソッドの包括的かつ科学的に健全な比較を行う。
以上の結果から,ISソリューションの未解決の可能性が示唆された。
また,大規模データセットやトランスフォーマーアーキテクチャに特化して設計された,ノイズ指向と冗長性を考慮した2つの新しいISソリューションを提案する。
最終ソリューションでは、トレーニングセットの平均41倍の削減を実現し、すべてのデータセットで同じレベルの有効性を維持しました。
重要なことに、我々のソリューションは1.67倍(最大2.46倍)のスピードアップ改善を示し、数十万のドキュメントを持つデータセットにスケーラブルになった。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [86.03382625531951]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。