論文の概要: Amharic Text Clustering Using Encyclopedic Knowledge with Neural Word
Embedding
- arxiv url: http://arxiv.org/abs/2105.00809v2
- Date: Thu, 22 Sep 2022 14:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 00:17:00.436131
- Title: Amharic Text Clustering Using Encyclopedic Knowledge with Neural Word
Embedding
- Title(参考訳): ニューラルワード埋め込みを用いた百科事典知識を用いたアンハリックテキストクラスタリング
- Authors: Dessalew Yohannes and Yeregal Assabie
- Abstract要約: 本稿では,エンシクロペディック・ナレッジ(EK)とニューラルワードの埋め込みを用いて,アムハラ文字の文書をクラスタリングするシステムを提案する。
実験の結果,文書クラスタリングにおける単語埋め込みによるEKの使用は,EKのみの使用よりも平均精度を向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this digital era, almost in every discipline people are using automated
systems that generate information represented in document format in different
natural languages. As a result, there is a growing interest towards better
solutions for finding, organizing and analyzing these documents. In this paper,
we propose a system that clusters Amharic text documents using Encyclopedic
Knowledge (EK) with neural word embedding. EK enables the representation of
related concepts and neural word embedding allows us to handle the contexts of
the relatedness. During the clustering process, all the text documents pass
through preprocessing stages. Enriched text document features are extracted
from each document by mapping with EK and word embedding model. TF-IDF weighted
vector of enriched feature was generated. Finally, text documents are clustered
using popular spherical K-means algorithm. The proposed system is tested with
Amharic text corpus and Amharic Wikipedia data. Test results show that the use
of EK with word embedding for document clustering improves the average accuracy
over the use of only EK. Furthermore, changing the size of the class has a
significant effect on accuracy.
- Abstract(参考訳): このデジタル時代、ほとんどの分野において、人々は異なる自然言語で文書形式で表現された情報を生成する自動システムを使っている。
その結果、これらの文書を見つけ、整理し、分析するためのより良いソリューションに対する関心が高まっている。
本稿では,ニューラルワード埋め込みを用いた百科事典知識(ek)を用いて,アンモリックテキスト文書を集積するシステムを提案する。
ekは関連する概念の表現を可能にし、神経語埋め込みは関連性のコンテキストを扱うことができる。
クラスタリングプロセスの間、すべてのテキストドキュメントは前処理段階を通過する。
EKと単語埋め込みモデルとのマッピングにより、各文書からリッチテキスト文書の特徴を抽出する。
TF-IDF重みベクトルが生成した。
最後に、一般的な球面K平均アルゴリズムを用いて文書をクラスタリングする。
提案システムは、アムハーリックテキストコーパスとアムハーリックウィキペディアデータを用いてテストされている。
実験の結果,文書クラスタリングにおける単語埋め込みによるEKの使用は,EKのみの使用よりも平均精度を向上させることがわかった。
さらに、クラスのサイズを変えることは、精度に重大な影響を及ぼす。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Enhanced Knowledge Selection for Grounded Dialogues via Document
Semantic Graphs [123.50636090341236]
本稿では,背景知識文書を自動的に文書意味グラフに変換することを提案する。
文書意味グラフは文ノードを用いて文レベル情報を保存し,文間の概念接続を提供する。
本実験により,HolEにおける知識選択タスクとエンドツーエンド応答生成タスクの双方において,意味グラフに基づく知識選択が文選択ベースラインよりも改善されることが示されている。
論文 参考訳(メタデータ) (2022-06-15T04:51:32Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - FRAKE: Fusional Real-time Automatic Keyword Extraction [1.332091725929965]
キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。
グラフ中心性特徴とテキスト特徴の2つのモデルを組み合わせたアプローチを採用している。
論文 参考訳(メタデータ) (2021-04-10T18:30:17Z) - Hybrid Improved Document-level Embedding (HIDE) [5.33024001730262]
ハイブリット改善文書レベルの埋め込みを提案する。
ドメイン情報、音声情報の一部、感情情報をGloVeやWord2Vecなどの既存の単語埋め込みに組み込む。
本稿では,GloVe や Word2Vec などの既存の事前学習語ベクトルの精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T19:09:13Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z) - Every Document Owns Its Structure: Inductive Text Classification via
Graph Neural Networks [22.91359631452695]
グラフニューラルネットワーク(GNN)を用いたインダクティブテキスト分類のためのテクスティングを提案する。
まず、各文書の個々のグラフを作成し、次にGNNを用いて局所構造に基づいて粒度の細かい単語表現を学習する。
本手法は,最先端のテキスト分類法より優れている。
論文 参考訳(メタデータ) (2020-04-22T07:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。