論文の概要: KSW: Khmer Stop Word based Dictionary for Keyword Extraction
- arxiv url: http://arxiv.org/abs/2405.17390v1
- Date: Mon, 27 May 2024 17:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:14:13.144593
- Title: KSW: Khmer Stop Word based Dictionary for Keyword Extraction
- Title(参考訳): KSW: Khmer Stop Word based Dictionary for Keyword extract (英語)
- Authors: Nimol Thuon, Wangrui Zhang, Sada Thuon,
- Abstract要約: 本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を削除するための前処理手法を実装した。
実験により、KSWは従来の手法に比べて精度と妥当性が大幅に向上したことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces KSW, a Khmer-specific approach to keyword extraction that leverages a specialized stop word dictionary. Due to the limited availability of natural language processing resources for the Khmer language, effective keyword extraction has been a significant challenge. KSW addresses this by developing a tailored stop word dictionary and implementing a preprocessing methodology to remove stop words, thereby enhancing the extraction of meaningful keywords. Our experiments demonstrate that KSW achieves substantial improvements in accuracy and relevance compared to previous methods, highlighting its potential to advance Khmer text processing and information retrieval. The KSW resources, including the stop word dictionary, are available at the following GitHub repository: (https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction.git).
- Abstract(参考訳): 本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
Khmer言語のための自然言語処理リソースが限られているため、効果的なキーワード抽出が大きな課題となっている。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を除去する前処理手法を実装し、意味のあるキーワードの抽出を強化した。
実験により,KSWは従来の手法に比べて精度と関連性を大幅に向上し,Khmerテキスト処理と情報検索の進歩の可能性を強調した。
停止語辞書を含むKSWリソースは、以下のGitHubリポジトリで利用できる。
関連論文リスト
- SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting [5.697227044927832]
キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。
本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。
提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
論文 参考訳(メタデータ) (2024-09-06T01:08:29Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval [0.4499833362998489]
ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
論文 参考訳(メタデータ) (2024-06-16T17:59:05Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT [59.245414547751636]
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
論文 参考訳(メタデータ) (2024-02-19T15:04:53Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - FRAKE: Fusional Real-time Automatic Keyword Extraction [1.332091725929965]
キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。
グラフ中心性特徴とテキスト特徴の2つのモデルを組み合わせたアプローチを採用している。
論文 参考訳(メタデータ) (2021-04-10T18:30:17Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。