論文の概要: Spoken Word2Vec: A Perspective And Some Techniques
- arxiv url: http://arxiv.org/abs/2311.09319v1
- Date: Wed, 15 Nov 2023 19:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:54:22.847191
- Title: Spoken Word2Vec: A Perspective And Some Techniques
- Title(参考訳): Spoken Word2Vec: パースペクティブといくつかのテクニック
- Authors: Mohammad Amaan Sayeed and Hanan Aldarmaki
- Abstract要約: 分散意味的特徴を符号化するテキストワード埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することによって機能する。
一方、音響単語の埋め込みは、典型的には低レベル音韻類似性を符号化する。
入力単位が音響的に相関している場合、Word2Vecアルゴリズムが分布意味論を符号化できないことを示す。
- 参考スコア(独自算出の注目度): 1.0515439489916731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text word embeddings that encode distributional semantic features work by
modeling contextual similarities of frequently occurring words. Acoustic word
embeddings, on the other hand, typically encode low-level phonetic
similarities. Semantic embeddings for spoken words have been previously
explored using similar algorithms to Word2Vec, but the resulting vectors still
mainly encoded phonetic rather than semantic features. In this paper, we
examine the assumptions and architectures used in previous works and show
experimentally how Word2Vec algorithms fail to encode distributional semantics
when the input units are acoustically correlated. In addition, previous works
relied on the simplifying assumptions of perfect word segmentation and
clustering by word type. Given these conditions, a trivial solution identical
to text-based embeddings has been overlooked. We follow this simpler path using
automatic word type clustering and examine the effects on the resulting
embeddings, highlighting the true challenges in this task.
- Abstract(参考訳): 分布的意味特徴をエンコードするテキスト単語埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することで機能する。
一方、音響単語の埋め込みは通常低レベル音韻類似性を符号化する。
音声単語のセマンティック埋め込みは、これまでWord2Vecと同様のアルゴリズムを用いて検討されてきたが、結果として得られるベクターは主に意味的特徴ではなく音声に符号化されている。
本稿では,先行研究における仮定とアーキテクチャを考察し,入力単位が音響的相関関係にある場合,word2vecアルゴリズムが分布的意味論をいかにエンコードしなかったかを実験的に示す。
さらに,従来の研究は,単語タイプによる単語分割とクラスタリングの簡易化に頼っていた。
これらの条件から、テキストベースの埋め込みと同一の自明な解決法が見過ごされている。
自動単語型クラスタリングを用いてこの簡単な経路を辿り、その結果の埋め込みへの影響を調べ、このタスクの真の課題を強調します。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Top2Vec: Distributed Representations of Topics [0.0]
トピックモデリングは、文書の大規模なコレクションにおいて潜在意味構造(通常トピックと呼ばれる)を発見するのに使用される。
共同文書と単語セマンティック埋め込みを利用してトピックを検索するtexttttop2vec$を提示する。
実験の結果, $texttttop2vec$ は確率的生成モデルよりも, 学習したコーパスの有意に情報的, 代表的なトピックを見つけることができた。
論文 参考訳(メタデータ) (2020-08-19T20:58:27Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Text classification with word embedding regularization and soft
similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文 参考訳(メタデータ) (2020-03-10T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。