論文の概要: Stopwords in Technical Language Processing
- arxiv url: http://arxiv.org/abs/2006.02633v1
- Date: Thu, 4 Jun 2020 03:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:42:40.235472
- Title: Stopwords in Technical Language Processing
- Title(参考訳): 技術言語処理におけるストップワード
- Authors: Serhad Sarica and Jianxi Luo
- Abstract要約: 一般的なテキストの停止語以外のエンジニアリングテキストにおいて、汎用的で、重要で、非形式的な停止語を識別する。
代替データ駆動型アプローチの合成に基づいて、技術的言語処理アプリケーションに適したストップワードリストをキュレートする。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are increasingly applications of natural language processing techniques
for information retrieval, indexing and topic modelling in the engineering
contexts. A standard component of such tasks is the removal of stopwords, which
are uninformative components of the data. While researchers use readily
available stopword lists which are derived for general English language, the
technical jargon of engineering fields contains their own highly frequent and
uninformative words and there exists no standard stopword list for technical
language processing applications. Here we address this gap by rigorously
identifying generic, insignificant, uninformative stopwords in engineering
texts beyond the stopwords in general texts, based on the synthesis of
alternative data-driven approaches, and curating a stopword list ready for
technical language processing applications.
- Abstract(参考訳): 自然言語処理技術の工学的文脈における情報検索、索引付け、トピックモデリングへの応用が増えている。
このようなタスクの標準コンポーネントは、データの非形式的なコンポーネントであるストップワードの削除である。
研究者は一般的な英語に派生したストップワードリストをすぐに利用することができるが、工学分野の技術用語には、非常に頻繁で非定型的な単語が含まれており、技術言語処理アプリケーションのための標準ストップワードリストは存在しない。
ここでは,汎用的,非意味的,非形式的ストップワードを一般テキストのストップワード以外のエンジニアリングテキストで厳密に識別し,代替データ駆動アプローチの合成と,技術言語処理アプリケーション用に準備されたストップワードリストのキュレーションによって,このギャップに対処する。
関連論文リスト
- Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval [0.4499833362998489]
ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
論文 参考訳(メタデータ) (2024-06-16T17:59:05Z) - KSW: Khmer Stop Word based Dictionary for Keyword Extraction [0.0]
本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を削除するための前処理手法を実装した。
実験により、KSWは従来の手法に比べて精度と妥当性が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2024-05-27T17:42:54Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - Prompt Engineering for Healthcare: Methodologies and Applications [93.63832575498844]
本総説では,医学分野の自然言語処理分野における情報工学の最近の進歩を紹介する。
我々は、迅速なエンジニアリングの開発を提供し、その医療自然言語処理アプリケーションへの重要な貢献を強調します。
論文 参考訳(メタデータ) (2023-04-28T08:03:42Z) - Stop Words for Processing Software Engineering Documents: Do they
Matter? [17.071645575166976]
非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。
ソフトウェア工学における停止語除去の有用性について検討する。
1万のStack Overflow質問から,ソフトウェア工学関連テキストのコーパスを構築した。
従来の情報理論を用いて200個のドメイン固有停止語を同定する。
論文 参考訳(メタデータ) (2023-03-18T15:39:23Z) - AtteSTNet -- An attention and subword tokenization based approach for
code-switched text hate speech detection [1.3190581566723918]
ソーシャルメディアで使われる言語は、しばしば英語と地域の母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
論文 参考訳(メタデータ) (2021-12-10T20:01:44Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。