論文の概要: Enhanced word embeddings using multi-semantic representation through
lexical chains
- arxiv url: http://arxiv.org/abs/2101.09023v1
- Date: Fri, 22 Jan 2021 09:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:31:26.798090
- Title: Enhanced word embeddings using multi-semantic representation through
lexical chains
- Title(参考訳): 語彙連鎖による多意味表現を用いた単語埋め込み
- Authors: Terry Ruas, Charles Henrique Porto Ferreira, William Grosky,
Fabr\'icio Olivetti de Fran\c{c}a, D\'ebora Maria Rossi Medeiros
- Abstract要約: フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
- 参考スコア(独自算出の注目度): 1.8199326045904998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The relationship between words in a sentence often tells us more about the
underlying semantic content of a document than its actual words, individually.
In this work, we propose two novel algorithms, called Flexible Lexical Chain II
and Fixed Lexical Chain II. These algorithms combine the semantic relations
derived from lexical chains, prior knowledge from lexical databases, and the
robustness of the distributional hypothesis in word embeddings as building
blocks forming a single system. In short, our approach has three main
contributions: (i) a set of techniques that fully integrate word embeddings and
lexical chains; (ii) a more robust semantic representation that considers the
latent relation between words in a document; and (iii) lightweight word
embeddings models that can be extended to any natural language task. We intend
to assess the knowledge of pre-trained models to evaluate their robustness in
the document classification task. The proposed techniques are tested against
seven word embeddings algorithms using five different machine learning
classifiers over six scenarios in the document classification task. Our results
show the integration between lexical chains and word embeddings representations
sustain state-of-the-art results, even against more complex systems.
- Abstract(参考訳): 文中の単語間の関係は、個々の単語よりも文書の根底にある意味的内容についてより深く語られることが多い。
本研究では,フレキシブルレキシカルチェインIIと固定レキシカルチェインIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの事前知識、単語埋め込みにおける分布仮説の頑健さを単一のシステムを構成するブロックとして組み合わせている。
要するに、我々のアプローチには3つの大きな貢献がある: (i) 単語埋め込みと語彙連鎖を完全に統合する一連の技術、 (ii) 文書中の単語間の潜在関係を考えるより堅牢な意味表現、そして (iii) 任意の自然言語タスクに拡張可能な軽量な単語埋め込みモデル。
文書分類タスクにおけるロバスト性を評価するために,事前学習したモデルの知識を評価する。
提案手法は,文書分類タスクにおいて,5つの異なる機械学習分類器を用いた7つの単語埋め込みアルゴリズムに対してテストを行う。
以上の結果から,語彙連鎖と単語埋め込み表現の統合は,より複雑なシステムに対してさえ,最先端の結果を維持できることが示された。
関連論文リスト
- Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling [49.3379730319246]
BERTに基づくシーケンスラベリングタスクのためのプラグインレキシコンの組込み手法であるDyLexを提案する。
語彙を更新しながら表現を再学習しないように,単語に依存しないタグ埋め込みを採用する。
最後に,提案フレームワークのプラグイン性を保証するために,協調的注意に基づく知識融合機構を導入する。
論文 参考訳(メタデータ) (2021-09-18T03:15:49Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language [0.9749560288448115]
まず、大規模な汎用データセットから事前トレーニングされたリッチな単語の埋め込みから始め、シンプルな非線形マッピングメカニズムを通じて、はるかに小さく、より特定のドメインデータセットから学んだ埋め込みで拡張します。
単語の埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
論文 参考訳(メタデータ) (2021-06-24T07:15:09Z) - Top2Vec: Distributed Representations of Topics [0.0]
トピックモデリングは、文書の大規模なコレクションにおいて潜在意味構造(通常トピックと呼ばれる)を発見するのに使用される。
共同文書と単語セマンティック埋め込みを利用してトピックを検索するtexttttop2vec$を提示する。
実験の結果, $texttttop2vec$ は確率的生成モデルよりも, 学習したコーパスの有意に情報的, 代表的なトピックを見つけることができた。
論文 参考訳(メタデータ) (2020-08-19T20:58:27Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。