論文の概要: Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream
Tasks
- arxiv url: http://arxiv.org/abs/2003.11645v3
- Date: Sat, 17 Apr 2021 06:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:23:19.667770
- Title: Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream
Tasks
- Title(参考訳): Word2Vec: 最適ハイパーパラメータとNLPダウンストリームタスクへの影響
- Authors: Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki
- Abstract要約: ハイパーパラメータの最適組み合わせを示し、様々な組み合わせを評価する。
提案手法は,従来のモデルと比較して,より優れた人為的なWordSimスコア,対応するSpearman相関,ダウンストリーム性能を得る。
- 参考スコア(独自算出の注目度): 1.6507910904669727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word2Vec is a prominent model for natural language processing (NLP) tasks.
Similar inspiration is found in distributed embeddings for new state-of-the-art
(SotA) deep neural networks. However, wrong combination of hyper-parameters can
produce poor quality vectors. The objective of this work is to empirically show
optimal combination of hyper-parameters exists and evaluate various
combinations. We compare them with the released, pre-trained original word2vec
model. Both intrinsic and extrinsic (downstream) evaluations, including named
entity recognition (NER) and sentiment analysis (SA) were carried out. The
downstream tasks reveal that the best model is usually task-specific, high
analogy scores don't necessarily correlate positively with F1 scores and the
same applies to focus on data alone. Increasing vector dimension size after a
point leads to poor quality or performance. If ethical considerations to save
time, energy and the environment are made, then reasonably smaller corpora may
do just as well or even better in some cases. Besides, using a small corpus, we
obtain better human-assigned WordSim scores, corresponding Spearman correlation
and better downstream performances (with significance tests) compared to the
original model, trained on 100 billion-word corpus.
- Abstract(参考訳): Word2Vecは自然言語処理(NLP)タスクの顕著なモデルである。
同様のインスピレーションは、新しい最先端(SotA)ディープニューラルネットワークのための分散埋め込みで見られる。
しかし、ハイパーパラメータの間違った組み合わせは品質の悪いベクトルを生成する。
本研究の目的は、ハイパーパラメータの最適組み合わせを実証的に示し、様々な組み合わせを評価することである。
それらは、リリース済みのオリジナルのword2vecモデルと比較する。
名前付きエンティティ認識(ner)と感情分析(sa)を含む内在的および外在的(下流)評価を行った。
下流のタスクでは、最良のモデルはタスク固有のもので、高いアナロジースコアは必ずしもf1スコアと正の相関を示さず、データのみに焦点を当てることにも当てはまる。
点の後にベクトル次元のサイズを増やすと、品質や性能が低下する。
時間、エネルギー、環境を節約するための倫理的考慮が作成されれば、合理的に小さなコーパスも同様に、場合によってはさらに良くなるかもしれない。
また,小コーパスを用いた場合,100億語コーパスで学習した元モデルと比較して,人間に割り当てられたワーシムスコア,対応するスピアマン相関,下流パフォーマンス(重要度テスト)が向上した。
関連論文リスト
- Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Embarrassingly Simple Performance Prediction for Abductive Natural
Language Inference [10.536415845097661]
本研究では,NLIモデルの性能を微調整せずに予測する手法を提案する。
その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。
提案手法は,モデル選択の過程において,大幅な時間節約につながる可能性がある。
論文 参考訳(メタデータ) (2022-02-21T18:10:24Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - Learning from Mistakes: Combining Ontologies via Self-Training for
Dialogue Generation [6.221019624345408]
タスク指向対話のための自然言語ジェネレータ(NLG)は通常、意味表現(MR)を入力とする。
新たにより大きく結合したオントロジーを作成し、NLGをトレーニングして、それをカバーする発話を生成します。
例えば、あるデータセットが家族にやさしい情報や評価情報があり、もう1つのデータセットが装飾とサービスの属性を持っている場合、私たちの目標は、家族にやさしい、評価、装飾、サービスの価値を実現する発話を生成できるオントロジーの組み合わせのためのNLGです。
論文 参考訳(メタデータ) (2020-09-30T23:54:38Z) - Adaptive Name Entity Recognition under Highly Unbalanced Data [5.575448433529451]
我々は,2方向LSTM (BI-LSTM) 上に積み重ねた条件付きランダムフィールド (CRF) 層からなるニューラルアーキテクチャについて実験を行った。
WeakクラスとStrongクラスを2つの異なるセットに分割し、各セットのパフォーマンスを最適化するために2つのBi-LSTM-CRFモデルを適切に設計するアドオン分類モデルを提案する。
論文 参考訳(メタデータ) (2020-03-10T06:56:52Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。