論文の概要: Frequency-aware Dimension Selection for Static Word Embedding by Mixed
Product Distance
- arxiv url: http://arxiv.org/abs/2305.07826v1
- Date: Sat, 13 May 2023 02:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:29:29.883117
- Title: Frequency-aware Dimension Selection for Static Word Embedding by Mixed
Product Distance
- Title(参考訳): 混合商品距離による静的単語埋め込みの周波数対応次元選択
- Authors: Lingfeng Shen, Haiyun Jiang, Lemao Liu, Ying Chen
- Abstract要約: 本稿では,単語埋め込みアルゴリズムを訓練することなく,単語埋め込みアルゴリズムの適切な次元を選択するための計量(Mixed Product Distance, MPD)を提案する。
文脈不使用タスクと文脈不使用タスクの両方の実験は,MPDに基づく次元選択法において,ベースラインよりも効率と性能のトレードオフが優れていることを示す。
- 参考スコア(独自算出の注目度): 22.374525706652207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static word embedding is still useful, particularly for context-unavailable
tasks, because in the case of no context available, pre-trained language models
often perform worse than static word embeddings. Although dimension is a key
factor determining the quality of static word embeddings, automatic dimension
selection is rarely discussed. In this paper, we investigate the impact of word
frequency on the dimension selection, and empirically find that word frequency
is so vital that it needs to be taken into account during dimension selection.
Based on such an empirical finding, this paper proposes a dimension selection
method that uses a metric (Mixed Product Distance, MPD) to select a proper
dimension for word embedding algorithms without training any word embedding.
Through applying a post-processing function to oracle matrices, the MPD-based
method can de-emphasize the impact of word frequency. Experiments on both
context-unavailable and context-available tasks demonstrate the better
efficiency-performance trade-off of our MPD-based dimension selection method
over baselines.
- Abstract(参考訳): 静的な単語埋め込みは、特にコンテキストが利用できないタスクでは、事前学習された言語モデルは、静的な単語埋め込みよりもパフォーマンスが悪いため、まだ有用である。
次元は静的単語埋め込みの品質を決定する重要な要素であるが、自動次元選択はめったに議論されない。
本稿では, 単語の頻度が次元選択に与える影響について検討し, 単語の頻度が非常に重要であり, 次元選択中に考慮する必要があることを実証的に確認する。
このような経験的発見に基づいて, 単語埋め込みアルゴリズムを訓練することなく, 単語埋め込みアルゴリズムの適切な次元を選択するために, 距離(Mixed Product Distance, MPD)を用いた次元選択法を提案する。
オラクル行列に後処理関数を適用することで、MPDベースの手法は単語周波数の影響を非強調化することができる。
コンテクスト未使用タスクとコンテクスト利用可能タスクの両方に関する実験は、ベースライン上のmpdベースの次元選択方法の効率とパフォーマンスのトレードオフをよりよく示しています。
関連論文リスト
- Scalable Dynamic Embedding Size Search for Streaming Recommendation [54.28404337601801]
実世界のレコメンデーションシステムは、しばしばストリーミングレコメンデーションシナリオで機能する。
ユーザやアイテムの数は増加を続けており、かなりのストレージリソース消費につながっている。
SCALLと呼ばれるストリーミングレコメンデーション用のLightweight Embeddingsを学び、ユーザ/イテムの埋め込みサイズを適応的に調整できる。
論文 参考訳(メタデータ) (2024-07-22T06:37:24Z) - Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - Effect of dimensionality change on the bias of word embeddings [1.1784544255941167]
単語埋め込みのバイアスに,次元変化がどう影響するかを検討する。
単語埋め込みのバイアスには次元変化による大きな変化がある。
次元変化が単語埋め込みのバイアスにどのように影響するかには一様性はない。
論文 参考訳(メタデータ) (2023-12-28T13:01:10Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Generalized Time Warping Invariant Dictionary Learning for Time Series
Classification and Clustering [8.14208923345076]
動的時間ワープ(DTW)は、時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使用される。
本稿では,時変不変辞書学習アルゴリズムを提案する。
辞書学習,分類,クラスタリングの観点から,提案手法の優位性を10組の公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-06-30T14:18:13Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。