論文の概要: Word Embeddings: Stability and Semantic Change
- arxiv url: http://arxiv.org/abs/2007.16006v1
- Date: Thu, 23 Jul 2020 16:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:30:39.333570
- Title: Word Embeddings: Stability and Semantic Change
- Title(参考訳): 単語埋め込み:安定性と意味変化
- Authors: Lucas Rettenmeier
- Abstract要約: 本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings are computed by a class of techniques within natural language
processing (NLP), that create continuous vector representations of words in a
language from a large text corpus. The stochastic nature of the training
process of most embedding techniques can lead to surprisingly strong
instability, i.e. subsequently applying the same technique to the same data
twice, can produce entirely different results. In this work, we present an
experimental study on the instability of the training process of three of the
most influential embedding techniques of the last decade: word2vec, GloVe and
fastText. Based on the experimental results, we propose a statistical model to
describe the instability of embedding techniques and introduce a novel metric
to measure the instability of the representation of an individual word.
Finally, we propose a method to minimize the instability - by computing a
modified average over multiple runs - and apply it to a specific linguistic
problem: The detection and quantification of semantic change, i.e. measuring
changes in the meaning and usage of words over time.
- Abstract(参考訳): 単語埋め込みは自然言語処理(nlp)内の一連の技術によって計算され、大きなテキストコーパスから言語内の単語の連続的なベクトル表現を生成する。
ほとんどの埋め込みテクニックのトレーニングプロセスの確率的性質は、驚くほど強い不安定性、すなわち同じテクニックを同じデータに2回適用することで、まったく異なる結果を生み出す可能性がある。
本研究では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性に関する実験的検討を行った。
実験結果に基づいて,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
最後に,複数の実行時間にわたって修正平均を計算することで,不安定性を最小化し,意味変化の検出と定量化,すなわち時間経過に伴う単語の意味と使用の変化を測定するという言語問題に適用する手法を提案する。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Statistical Uncertainty in Word Embeddings: GloVe-V [35.04183792123882]
本稿では,GloVeの近似的,使いやすい,スケーラブルな再構成誤差分散推定手法を提案する。
分散を伴う埋め込み(GloVe-V)の価値を示すために,本手法がコアワード埋め込みタスクにおいて,原理的仮説テストを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-06-18T00:35:02Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Learning to Remove: Towards Isotropic Pre-trained BERT Embedding [7.765987411382461]
単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。
事前に訓練されたBERT埋め込みのジオメトリを測定し、分析し、等方性とは程遠いことを見つけます。
この問題を解決するためのシンプルで効果的な方法を提案する:学習可能な重みのセットでBERT埋め込みのいくつかの支配的な方向を削除します。
論文 参考訳(メタデータ) (2021-04-12T08:13:59Z) - Exploring the Relationship Between Algorithm Performance, Vocabulary,
and Run-Time in Text Classification [2.7261840344953807]
本研究では,前処理技術が語彙サイズ,モデル性能,実行時間に与える影響について検討する。
個々の手法が精度を損なわずに実行時間を短縮できるのに対し、いくつかの手法の組み合わせでは2-5%の精度で実行時間を最大65%削減できることを示す。
論文 参考訳(メタデータ) (2021-04-08T15:49:59Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。