論文の概要: Exploring the Potential of Feature Density in Estimating Machine
Learning Classifier Performance with Application to Cyberbullying Detection
- arxiv url: http://arxiv.org/abs/2206.01949v1
- Date: Sat, 4 Jun 2022 09:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 12:50:35.516218
- Title: Exploring the Potential of Feature Density in Estimating Machine
Learning Classifier Performance with Application to Cyberbullying Detection
- Title(参考訳): 機械学習分類器の性能推定における特徴密度の可能性とサイバーバブル検出への応用
- Authors: Juuso Eronen, Michal Ptaszynski, Fumito Masui, Gniewosz Leliwa and
Michal Wroczynski
- Abstract要約: 我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。
我々のアプローチ1は、自然言語処理のためのMLモデルのリソース集約的なトレーニングを最適化し、必要な実験の数を減らすことである。
- 参考スコア(独自算出の注目度): 2.4674086273775035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this research. we analyze the potential of Feature Density (HD) as a way
to comparatively estimate machine learning (ML) classifier performance prior to
training. The goal of the study is to aid in solving the problem of
resource-intensive training of ML models which is becoming a serious issue due
to continuously increasing dataset sizes and the ever rising popularity of Deep
Neural Networks (DNN). The issue of constantly increasing demands for more
powerful computational resources is also affecting the environment, as training
large-scale ML models are causing alarmingly-growing amounts of CO2, emissions.
Our approach 1s to optimize the resource-intensive training of ML models for
Natural Language Processing to reduce the number of required experiments
iterations. We expand on previous attempts on improving classifier training
efficiency with FD while also providing an insight to the effectiveness of
various linguistically-backed feature preprocessing methods for dialog
classification, specifically cyberbullying detection.
- Abstract(参考訳): この研究に携わる。
我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。
この研究の目的は、データセットのサイズが継続的に増加し、Deep Neural Networks (DNN) の人気が高まっているため、MLモデルのリソース集約的なトレーニングの問題を解決することにある。
より強力な計算資源に対する需要が常に増加するという問題は環境にも影響を与えており、大規模なMLモデルのトレーニングがCO2排出量、排出を著しく増加させています。
自然言語処理のためのmlモデルのリソース集約的なトレーニングを最適化し、必要な実験イテレーションの数を減らすためのアプローチ1。
本稿では,FDを用いた分類器訓練効率の向上に向けた従来の試みをさらに拡張するとともに,対話分類,特にサイバブリング検出における言語支援機能前処理手法の有効性について考察する。
関連論文リスト
- Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。
本研究では,SLMの学習における計算的ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文 参考訳(メタデータ) (2024-10-25T10:30:21Z) - Extending Network Intrusion Detection with Enhanced Particle Swarm Optimization Techniques [0.0]
本研究では,機械学習(ML)と深層学習(DL)技術を組み合わせて,ネットワーク侵入検知システム(NIDS)を改善する方法について検討する。
この研究は、CSE-CIC-IDS 2018とLITNET-2020データセットを使用して、MLメソッド(決定木、ランダムフォレスト、XGBoost)とDLモデル(CNN、RNN、DNN)を主要なパフォーマンス指標と比較する。
Decision Treeモデルでは、EPSO(Enhanced Particle Swarm Optimization)を微調整して、ネットワーク違反を効果的に検出する能力を実証した。
論文 参考訳(メタデータ) (2024-08-14T17:11:36Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。