論文の概要: Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection
- arxiv url: http://arxiv.org/abs/2407.12342v2
- Date: Mon, 4 Nov 2024 09:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:36:48.572523
- Title: Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection
- Title(参考訳): 弱教師付き特徴選択による単語埋め込み次元削減
- Authors: Jintang Xue, Yun-Cheng Wang, Chengwei Wei, C. -C. Jay Kuo,
- Abstract要約: 語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
- 参考スコア(独自算出の注目度): 34.217661429283666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental task in natural language processing, word embedding converts each word into a representation in a vector space. A challenge with word embedding is that as the vocabulary grows, the vector space's dimension increases, which can lead to a vast model size. Storing and processing word vectors are resource-demanding, especially for mobile edge-devices applications. This paper explores word embedding dimension reduction. To balance computational costs and performance, we propose an efficient and effective weakly-supervised feature selection method named WordFS. It has two variants, each utilizing novel criteria for feature selection. Experiments on various tasks (e.g., word and sentence similarity and binary and multi-class classification) indicate that the proposed WordFS model outperforms other dimension reduction methods at lower computational costs. We have released the code for reproducibility along with the paper.
- Abstract(参考訳): 自然言語処理の基本的なタスクとして、単語埋め込みは各単語をベクトル空間における表現に変換する。
単語埋め込みの課題は、語彙が大きくなるにつれてベクトル空間の次元が増加し、モデルのサイズが大きくなることである。
単語ベクトルのストリングと処理は、特にモバイルエッジデバイスアプリケーションにおいて、リソースオンデマンドである。
本稿では,単語埋め込み次元の減少について検討する。
計算コストと性能のバランスをとるために,WordFS という機能選択手法を提案する。
2つのバリエーションがあり、それぞれが特徴選択の新しい基準を利用している。
様々なタスク(例えば、単語と文の類似性、二項および多クラス分類)の実験は、提案したWordFSモデルが計算コストの低い他の次元削減手法よりも優れていることを示している。
再現性のためのコードと論文をリリースしました。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Frequency-aware Dimension Selection for Static Word Embedding by Mixed
Product Distance [22.374525706652207]
本稿では,単語埋め込みアルゴリズムを訓練することなく,単語埋め込みアルゴリズムの適切な次元を選択するための計量(Mixed Product Distance, MPD)を提案する。
文脈不使用タスクと文脈不使用タスクの両方の実験は,MPDに基づく次元選択法において,ベースラインよりも効率と性能のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-13T02:53:37Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文 参考訳(メタデータ) (2020-04-25T07:38:08Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。