論文の概要: Word-Graph2vec: An efficient word embedding approach on word
co-occurrence graph using random walk sampling
- arxiv url: http://arxiv.org/abs/2301.04312v1
- Date: Wed, 11 Jan 2023 05:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:36:44.138442
- Title: Word-Graph2vec: An efficient word embedding approach on word
co-occurrence graph using random walk sampling
- Title(参考訳): Word-Graph2vec:ランダムウォークサンプリングを用いた単語共起グラフへの効率的な単語埋め込み手法
- Authors: Wenting Li and Yuanzhe Cai and Zeyu Chen
- Abstract要約: 比較的大きなコーパスに埋め込まれた単語を訓練するのは違法に高価である。
本稿では,Word-Graph2vecと呼ばれるグラフベースの単語埋め込みアルゴリズムを提案する。
提案アルゴリズムは,従来のSkip-Gramよりも効率が4~5倍高い。
- 参考スコア(独自算出の注目度): 8.716606664673982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embedding has become ubiquitous and is widely used in various text
mining and natural language processing (NLP) tasks, such as information
retrieval, semantic analysis, and machine translation, among many others.
Unfortunately, it is prohibitively expensive to train the word embedding in a
relatively large corpus. We propose a graph-based word embedding algorithm,
called Word-Graph2vec, which converts the large corpus into a word
co-occurrence graph, then takes the word sequence samples from this graph by
randomly traveling and trains the word embedding on this sampling corpus in the
end. We posit that because of the stable vocabulary, relative idioms, and fixed
expressions in English, the size and density of the word co-occurrence graph
change slightly with the increase in the training corpus. So that
Word-Graph2vec has stable runtime on the large scale data set, and its
performance advantage becomes more and more obvious with the growth of the
training corpus. Extensive experiments conducted on real-world datasets show
that the proposed algorithm outperforms traditional Skip-Gram by four-five
times in terms of efficiency, while the error generated by the random walk
sampling is small.
- Abstract(参考訳): 単語の埋め込みはユビキタスになり、情報検索、意味分析、機械翻訳など、様々なテキストマイニングや自然言語処理(NLP)タスクで広く使われている。
残念ながら、比較的大きなコーパスに埋め込まれた単語を訓練するのは極めて高価である。
そこで本研究では,大小コーパスを単語共起グラフに変換し,ランダムに移動して単語列サンプルを取り,最後にこのサンプリングコーパスに埋め込まれた単語を訓練する,グラフベースの単語埋め込みアルゴリズムであるword-graph2vecを提案する。
英語における安定語彙,相対イディオム,固定表現により,単語共起グラフの大きさと密度は,学習コーパスの増加とともにわずかに変化することが示唆された。
したがって、Word-Graph2vecは大規模データセット上で安定したランタイムを持ち、そのパフォーマンス上の優位性は、トレーニングコーパスの成長とともにますます明確になる。
実世界のデータセットを用いた広範囲な実験により,提案アルゴリズムは従来のスキップグラムを4~5倍効率で上回り,ランダムウォークサンプリングによる誤差は小さいことがわかった。
関連論文リスト
- Item-Graph2vec: a Efficient and Effective Approach using Item
Co-occurrence Graph Embedding for Collaborative Filtering [1.2277343096128712]
現在, Item2vec などの人工ニューラルネットワークに基づく協調フィルタリングアルゴリズムが普及しており, 現代のレコメンデータシステムに広く応用されている。
大規模データセットを扱う場合、現在のアルゴリズムがトレーニング時間コストが高く、安定性が低いという欠点を克服するため、アイテムグラフ埋め込みアルゴリズムであるItem-Graph2vecについて説明する。
論文 参考訳(メタデータ) (2023-10-22T07:46:31Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - Automatic Vocabulary and Graph Verification for Accurate Loop Closure
Detection [21.862978912891677]
Bag-of-Words (BoW)は、機能と関連付け、ループを検出する視覚語彙を構築する。
本稿では,ノードの半径と特徴記述子のドリフトを比較することで,自然な収束基準を提案する。
本稿では,候補ループの検証のための新しいトポロジカルグラフ検証手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T13:19:33Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Text Information Aggregation with Centrality Attention [86.91922440508576]
本稿では, 固有中央集権自己注意という, 集権重み付けの新たな方法を提案する。
文中のすべての単語に対する完全連結グラフを構築し,各単語の注意点として固有中央性を計算する。
論文 参考訳(メタデータ) (2020-11-16T13:08:48Z) - Embedding Words in Non-Vector Space with Unsupervised Graph Learning [33.51809615505692]
GraphGlove: エンドツーエンドで学習される教師なしグラフワード表現について紹介する。
我々の設定では、各単語は重み付きグラフのノードであり、単語間の距離は対応するノード間の最短経路距離である。
グラフに基づく表現は、単語類似性や類似性タスクにおいて、ベクターベースの手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-10-06T10:17:49Z) - e-SNLI-VE: Corrected Visual-Textual Entailment with Natural Language
Explanations [87.71914254873857]
SNLI-VEのエラー率が最も高いクラスを補正するためのデータ収集手法を提案する。
第3に,人間による自然言語の説明をSNLI-VEに追加するe-SNLI-VEを紹介する。
トレーニング時にこれらの説明から学習するモデルをトレーニングし、テスト時にそのような説明を出力します。
論文 参考訳(メタデータ) (2020-04-07T23:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。