論文の概要: Quantitative Stopword Generation for Sentiment Analysis via Recursive
and Iterative Deletion
- arxiv url: http://arxiv.org/abs/2209.01519v1
- Date: Sun, 4 Sep 2022 03:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:40:19.188760
- Title: Quantitative Stopword Generation for Sentiment Analysis via Recursive
and Iterative Deletion
- Title(参考訳): 再帰的・反復的削除による知覚分析のための量的停止語生成
- Authors: Daniel M. DiPietro
- Abstract要約: ストップワードは意味情報をほとんど持たず、しばしばデータセットのサイズを減らすためにテキストデータから削除される。
特定のNLPタスクに対して効率的な停止語セットを生成するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stopwords carry little semantic information and are often removed from text
data to reduce dataset size and improve machine learning model performance.
Consequently, researchers have sought to develop techniques for generating
effective stopword sets. Previous approaches have ranged from qualitative
techniques relying upon linguistic experts, to statistical approaches that
extract word importance using correlations or frequency-dependent metrics
computed on a corpus. We present a novel quantitative approach that employs
iterative and recursive feature deletion algorithms to see which words can be
deleted from a pre-trained transformer's vocabulary with the least degradation
to its performance, specifically for the task of sentiment analysis.
Empirically, stopword lists generated via this approach drastically reduce
dataset size while negligibly impacting model performance, in one such example
shrinking the corpus by 28.4% while improving the accuracy of a trained
logistic regression model by 0.25%. In another instance, the corpus was shrunk
by 63.7% with a 2.8% decrease in accuracy. These promising results indicate
that our approach can generate highly effective stopword sets for specific NLP
tasks.
- Abstract(参考訳): ストップワードは意味的な情報が少なく、しばしばテキストデータから削除され、データセットのサイズが小さくなり、機械学習モデルのパフォーマンスが向上する。
その結果、研究者は効果的なストップワードセットを生成する技術の開発を試みた。
従来のアプローチは、言語の専門家に依存する質的手法から、コーパスで計算された相関や周波数依存メトリクスを使って単語の重要性を抽出する統計的アプローチまで様々である。
本稿では,逐次的かつ再帰的な特徴削除アルゴリズムを用いて,事前学習されたトランスフォーマーの語彙からどの単語を削除することができるか,特に感情分析のタスクにおいて,その性能の低下を最小限に抑えるための新しい定量的手法を提案する。
実証的に、このアプローチで生成されたストップワードリストは、トレーニングされたロジスティック回帰モデルの精度を0.25%向上させながら、コーパスを28.4%縮小する例において、モデル性能に無視できることなく、データセットサイズを大幅に削減する。
別の例では、コーパスは63.7%縮小され、精度は2.8%減少した。
これらの有望な結果は,本手法が特定のNLPタスクに対して高い効率の停止語セットを生成できることを示唆している。
関連論文リスト
- SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Exploring the Relationship Between Algorithm Performance, Vocabulary,
and Run-Time in Text Classification [2.7261840344953807]
本研究では,前処理技術が語彙サイズ,モデル性能,実行時間に与える影響について検討する。
個々の手法が精度を損なわずに実行時間を短縮できるのに対し、いくつかの手法の組み合わせでは2-5%の精度で実行時間を最大65%削減できることを示す。
論文 参考訳(メタデータ) (2021-04-08T15:49:59Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。