論文の概要: Stopwords in Technical Language Processing
- arxiv url: http://arxiv.org/abs/2006.02633v1
- Date: Thu, 4 Jun 2020 03:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:42:40.235472
- Title: Stopwords in Technical Language Processing
- Title(参考訳): 技術言語処理におけるストップワード
- Authors: Serhad Sarica and Jianxi Luo
- Abstract要約: 一般的なテキストの停止語以外のエンジニアリングテキストにおいて、汎用的で、重要で、非形式的な停止語を識別する。
代替データ駆動型アプローチの合成に基づいて、技術的言語処理アプリケーションに適したストップワードリストをキュレートする。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are increasingly applications of natural language processing techniques
for information retrieval, indexing and topic modelling in the engineering
contexts. A standard component of such tasks is the removal of stopwords, which
are uninformative components of the data. While researchers use readily
available stopword lists which are derived for general English language, the
technical jargon of engineering fields contains their own highly frequent and
uninformative words and there exists no standard stopword list for technical
language processing applications. Here we address this gap by rigorously
identifying generic, insignificant, uninformative stopwords in engineering
texts beyond the stopwords in general texts, based on the synthesis of
alternative data-driven approaches, and curating a stopword list ready for
technical language processing applications.
- Abstract(参考訳): 自然言語処理技術の工学的文脈における情報検索、索引付け、トピックモデリングへの応用が増えている。
このようなタスクの標準コンポーネントは、データの非形式的なコンポーネントであるストップワードの削除である。
研究者は一般的な英語に派生したストップワードリストをすぐに利用することができるが、工学分野の技術用語には、非常に頻繁で非定型的な単語が含まれており、技術言語処理アプリケーションのための標準ストップワードリストは存在しない。
ここでは,汎用的,非意味的,非形式的ストップワードを一般テキストのストップワード以外のエンジニアリングテキストで厳密に識別し,代替データ駆動アプローチの合成と,技術言語処理アプリケーション用に準備されたストップワードリストのキュレーションによって,このギャップに対処する。
関連論文リスト
- Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - A Survey on Semantic Processing Techniques [38.32578417623237]
意味論の研究は言語学において多次元である。
計算意味処理の研究の深さと幅は、新しい技術で大きく改善できる。
論文 参考訳(メタデータ) (2023-10-22T15:09:51Z) - Stop Words for Processing Software Engineering Documents: Do they
Matter? [17.071645575166976]
非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。
ソフトウェア工学における停止語除去の有用性について検討する。
1万のStack Overflow質問から,ソフトウェア工学関連テキストのコーパスを構築した。
従来の情報理論を用いて200個のドメイン固有停止語を同定する。
論文 参考訳(メタデータ) (2023-03-18T15:39:23Z) - AtteSTNet -- An attention and subword tokenization based approach for
code-switched text hate speech detection [1.3190581566723918]
ソーシャルメディアで使われる言語は、しばしば英語と地域の母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
論文 参考訳(メタデータ) (2021-12-10T20:01:44Z) - Language Semantics Interpretation with an Interaction-based Recurrent
Neural Networks [0.0]
本稿では,新しいインフルエンススコア (I-score) と,BDA (Backward Dropping Algorithm) と呼ばれるグリージー検索アルゴリズムと,"Dagger Technique" と呼ばれる特徴工学的手法を提案する。
提案手法は,他の人気ピアと比較して81%の誤差削減率で予測性能を向上させるために適用された。
論文 参考訳(メタデータ) (2021-11-02T00:39:21Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。