論文の概要: Are Word Embedding Methods Stable and Should We Care About It?
- arxiv url: http://arxiv.org/abs/2104.08433v1
- Date: Sat, 17 Apr 2021 03:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 07:13:19.607061
- Title: Are Word Embedding Methods Stable and Should We Care About It?
- Title(参考訳): 単語埋め込みメソッドは安定しているか、それに注意すべきか?
- Authors: Angana Borah, Manash Pratim Barman, Amit Awekar
- Abstract要約: 単語類似度に基づく内在的評価を用いた単語埋め込み法(WEM)の安定性測定について検討する。
我々は、Word2Vec、GloVe、fastTextの3つの人気のあるWEMを実験した。
我々の実験は、3つのWEMの中で、fastTextが最も安定しており、GloVeとWord2Vecが続くことを示している。
- 参考スコア(独自算出の注目度): 1.7832840847126956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A representation learning method is considered stable if it consistently
generates similar representation of the given data across multiple runs. Word
Embedding Methods (WEMs) are a class of representation learning methods that
generate dense vector representation for each word in the given text data. The
central idea of this paper is to explore the stability measurement of WEMs
using intrinsic evaluation based on word similarity. We experiment with three
popular WEMs: Word2Vec, GloVe, and fastText. For stability measurement, we
investigate the effect of five parameters involved in training these models. We
perform experiments using four real-world datasets from different domains:
Wikipedia, News, Song lyrics, and European parliament proceedings. We also
observe the effect of WEM stability on three downstream tasks: Clustering, POS
tagging, and Fairness evaluation. Our experiments indicate that amongst the
three WEMs, fastText is the most stable, followed by GloVe and Word2Vec.
- Abstract(参考訳): 表現学習法は、複数の実行で与えられたデータの類似した表現を一貫して生成する場合、安定であると考えられる。
Word Embedding Methods (WEM) は、与えられたテキストデータ中の各単語に対して密度の高いベクトル表現を生成する表現学習のクラスである。
本研究の中心となる考え方は,単語類似性に基づく内在的評価を用いたWEMの安定性の測定である。
我々は、Word2Vec、GloVe、fastTextの3つの人気のあるWEMを実験した。
安定度測定には,これらのモデルのトレーニングに係わる5つのパラメータの効果を検討する。
われわれは、ウィキペディア、ニュース、歌詞、欧州議会の議事録の4つの実世界のデータセットを用いて実験を行う。
また,wemの安定性が3つの下流タスク(クラスタリング,posタグ,公平性評価)に与える影響を観察した。
我々の実験は、3つのWEMの中で、fastTextが最も安定しており、GloVeとWord2Vecが続くことを示している。
関連論文リスト
- Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文 参考訳(メタデータ) (2023-11-28T22:54:33Z) - Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - PWESuite: Phonetic Word Embeddings and Tasks They Facilitate [37.09948594297879]
音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。
また、過去、現在、将来のメソッドを適切に評価するためのタスクスイートも提供します。
論文 参考訳(メタデータ) (2023-04-05T16:03:42Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Learning to Remove: Towards Isotropic Pre-trained BERT Embedding [7.765987411382461]
単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。
事前に訓練されたBERT埋め込みのジオメトリを測定し、分析し、等方性とは程遠いことを見つけます。
この問題を解決するためのシンプルで効果的な方法を提案する:学習可能な重みのセットでBERT埋め込みのいくつかの支配的な方向を削除します。
論文 参考訳(メタデータ) (2021-04-12T08:13:59Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z) - IMRAM: Iterative Matching with Recurrent Attention Memory for
Cross-Modal Image-Text Retrieval [105.77562776008459]
既存の手法は、注意機構を利用して、そのような対応をきめ細かな方法で探索する。
既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。
本稿では,複数段階のアライメントで対応を捉えるIMRAM法を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。