論文の概要: Stop Words for Processing Software Engineering Documents: Do they
Matter?
- arxiv url: http://arxiv.org/abs/2303.10439v2
- Date: Mon, 12 Jun 2023 12:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:52:37.830977
- Title: Stop Words for Processing Software Engineering Documents: Do they
Matter?
- Title(参考訳): ソフトウェアエンジニアリング文書の処理の停止語: 重要か?
- Authors: Yaohou Fan and Chetan Arora and Christoph Treude
- Abstract要約: 非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。
ソフトウェア工学における停止語除去の有用性について検討する。
1万のStack Overflow質問から,ソフトウェア工学関連テキストのコーパスを構築した。
従来の情報理論を用いて200個のドメイン固有停止語を同定する。
- 参考スコア(独自算出の注目度): 17.071645575166976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stop words, which are considered non-predictive, are often eliminated in
natural language processing tasks. However, the definition of uninformative
vocabulary is vague, so most algorithms use general knowledge-based stop lists
to remove stop words. There is an ongoing debate among academics about the
usefulness of stop word elimination, especially in domain-specific settings. In
this work, we investigate the usefulness of stop word removal in a software
engineering context. To do this, we replicate and experiment with three
software engineering research tools from related work. Additionally, we
construct a corpus of software engineering domain-related text from 10,000
Stack Overflow questions and identify 200 domain-specific stop words using
traditional information-theoretic methods. Our results show that the use of
domain-specific stop words significantly improved the performance of research
tools compared to the use of a general stop list and that 17 out of 19
evaluation measures showed better performance.
Online appendix: https://zenodo.org/record/7865748
- Abstract(参考訳): 非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。
しかし、非形式語彙の定義はあいまいであり、ほとんどのアルゴリズムは停止語を取り除くために一般的な知識に基づく停止リストを使用する。
特にドメイン固有の設定において、停止語除去の有用性について、学者の間で議論が続いている。
本研究では,ソフトウェア工学における停止語除去の有用性について検討する。
そのために、関連する作業から3つのソフトウェアエンジニアリング研究ツールを複製し、実験する。
さらに,10,000のスタックオーバーフロー質問からソフトウェア工学的ドメイン関連テキストのコーパスを構築し,従来の情報理論手法を用いて200のドメイン固有ストップワードを識別する。
その結果、ドメイン固有の停止語の使用により、一般的な停止語の使用と比較して研究ツールの性能が大幅に向上し、19項目中17項目がより良い性能を示した。
オンライン付録: https://zenodo.org/record/7865748
関連論文リスト
- Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval [0.4499833362998489]
ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
論文 参考訳(メタデータ) (2024-06-16T17:59:05Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - An Insight into The Intricacies of Lingual Paraphrasing Pragmatic
Discourse on The Purpose of Synonyms [0.0]
我々は,WordNet と Natural Language Tool Kit (NLTK) を用いて,任意の文書や段落を言い換えるアルゴリズムを開発した。
250段落のパラフレーズ精度は94.8%であった。
論文 参考訳(メタデータ) (2022-06-07T02:57:27Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Stopwords in Technical Language Processing [4.111899441919165]
一般的なテキストの停止語以外のエンジニアリングテキストにおいて、汎用的で、重要で、非形式的な停止語を識別する。
代替データ駆動型アプローチの合成に基づいて、技術的言語処理アプリケーションに適したストップワードリストをキュレートする。
論文 参考訳(メタデータ) (2020-06-04T03:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。