論文の概要: Clustering Word Embeddings with Self-Organizing Maps. Application on
LaRoSeDa -- A Large Romanian Sentiment Data Set
- arxiv url: http://arxiv.org/abs/2101.04197v1
- Date: Mon, 11 Jan 2021 21:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:44:51.925559
- Title: Clustering Word Embeddings with Self-Organizing Maps. Application on
LaRoSeDa -- A Large Romanian Sentiment Data Set
- Title(参考訳): 自己組織化マップによる単語埋め込みのクラスタリング。
larosedaの応用 - ルーマニアの大規模な感情データセット
- Authors: Anca Maria Tache, Mihaela Gaman, Radu Tudor Ionescu
- Abstract要約: ルーマニア語は、計算言語学の下位言語の一つである。
ルーマニアの大規模な感情データセットであるLaRoSeDaを紹介します。
k平均クラスタリングアルゴリズムを自己組織化マップに置き換える。
- 参考スコア(独自算出の注目度): 15.877673959068455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Romanian is one of the understudied languages in computational linguistics,
with few resources available for the development of natural language processing
tools. In this paper, we introduce LaRoSeDa, a Large Romanian Sentiment Data
Set, which is composed of 15,000 positive and negative reviews collected from
one of the largest Romanian e-commerce platforms. We employ two sentiment
classification methods as baselines for our new data set, one based on
low-level features (character n-grams) and one based on high-level features
(bag-of-word-embeddings generated by clustering word embeddings with k-means).
As an additional contribution, we replace the k-means clustering algorithm with
self-organizing maps (SOMs), obtaining better results because the generated
clusters of word embeddings are closer to the Zipf's law distribution, which is
known to govern natural language. We also demonstrate the generalization
capacity of using SOMs for the clustering of word embeddings on another
recently-introduced Romanian data set, for text categorization by topic.
- Abstract(参考訳): ルーマニア語は計算言語学の未研究言語の一つであり、自然言語処理ツールの開発のためのリソースはほとんどない。
本稿では,ルーマニア最大のeコマースプラットフォームから収集された15,000の肯定的評価と否定的評価からなる,ルーマニアの大規模な感情データセットであるlarosedaを紹介する。
低レベルの特徴(特徴的n-gram)と高レベルの特徴(k-meansによるクラスタリングによる単語埋め込み)に基づく2つの感情分類手法をベースラインとして採用した。
さらに,k-meansクラスタリングアルゴリズムを自己組織化マップ (SOMs) に置き換えることで,生成した単語埋め込みのクラスタは,自然言語を統治するZipfの法則分布に近いため,より良い結果が得られる。
また,最近導入された別のルーマニア語データセット上での単語埋め込みのクラスタリングにSOMを用いてトピックごとのテキスト分類を行う際の一般化能力を示す。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。