論文の概要: Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density
- arxiv url: http://arxiv.org/abs/2111.01689v2
- Date: Wed, 3 Nov 2021 01:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 10:47:59.327306
- Title: Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density
- Title(参考訳): 特徴密度検出のための分類器訓練効率の向上
- Authors: Juuso Eronen, Michal Ptaszynski, Fumito Masui, Aleksander
Smywi\'nski-Pohl, Gniewosz Leliwa, Michal Wroczynski
- Abstract要約: 言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
- 参考スコア(独自算出の注目度): 58.64907136562178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the effectiveness of Feature Density (FD) using different
linguistically-backed feature preprocessing methods in order to estimate
dataset complexity, which in turn is used to comparatively estimate the
potential performance of machine learning (ML) classifiers prior to any
training. We hypothesise that estimating dataset complexity allows for the
reduction of the number of required experiments iterations. This way we can
optimize the resource-intensive training of ML models which is becoming a
serious issue due to the increases in available dataset sizes and the ever
rising popularity of models based on Deep Neural Networks (DNN). The problem of
constantly increasing needs for more powerful computational resources is also
affecting the environment due to alarmingly-growing amount of CO2 emissions
caused by training of large-scale ML models. The research was conducted on
multiple datasets, including popular datasets, such as Yelp business review
dataset used for training typical sentiment analysis models, as well as more
recent datasets trying to tackle the problem of cyberbullying, which, being a
serious social problem, is also a much more sophisticated problem form the
point of view of linguistic representation. We use cyberbullying datasets
collected for multiple languages, namely English, Japanese and Polish. The
difference in linguistic complexity of datasets allows us to additionally
discuss the efficacy of linguistically-backed word preprocessing.
- Abstract(参考訳): 学習前の機械学習(ml)分類器の潜在的な性能を比較評価するために,異なる言語的特徴前処理手法を用いた特徴密度(fd)の有効性について検討した。
データセットの複雑さを推定することで、必要な実験回数を減らすことができると仮定する。
これにより、利用可能なデータセットサイズの増加と、Deep Neural Networks(DNN)に基づいたモデルの人気の高まりにより、MLモデルのリソース集約的なトレーニングを最適化できます。
より強力な計算資源の需要が常に増大する問題は、大規模MLモデルのトレーニングによるCO2排出量の増加によって環境にも影響を与えている。
この調査は、一般的な感情分析モデルのトレーニングに使用されるyelp business reviewデータセットや、サイバーいじめの問題に対処しようとする最近のデータセットなど、一般的なデータセットを含む複数のデータセットで実施された。
我々は、複数の言語、すなわち英語、日本語、ポーランド語で収集されたサイバーいじめデータセットを使用する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性についても議論できる。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Exploring the Potential of Feature Density in Estimating Machine
Learning Classifier Performance with Application to Cyberbullying Detection [2.4674086273775035]
我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。
我々のアプローチ1は、自然言語処理のためのMLモデルのリソース集約的なトレーニングを最適化し、必要な実験の数を減らすことである。
論文 参考訳(メタデータ) (2022-06-04T09:11:13Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。