論文の概要: Fast Extraction of Word Embedding from Q-contexts
- arxiv url: http://arxiv.org/abs/2109.07084v1
- Date: Wed, 15 Sep 2021 05:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 02:21:41.124522
- Title: Fast Extraction of Word Embedding from Q-contexts
- Title(参考訳): Q-contextsを用いた単語埋め込みの高速抽出
- Authors: Junsheng Kong, Weizhao Li, Zeyi Liu, Ben Liao, Jiezhong Qiu, Chang-Yu
Hsieh, Yi Cai and Shengyu Zhang
- Abstract要約: コーパス全体(および単語との相互情報)に典型的な文脈(Q-contexts)のごく一部で、無視可能な誤りを伴う高品質な単語埋め込みを構築することができることを示す。
本稿では,これらの典型的な文脈から直接単語埋め込みを抽出できる,効率的かつ効果的なWEQ手法を提案する。
- 参考スコア(独自算出の注目度): 17.370344754614518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The notion of word embedding plays a fundamental role in natural language
processing (NLP). However, pre-training word embedding for very large-scale
vocabulary is computationally challenging for most existing methods. In this
work, we show that with merely a small fraction of contexts (Q-contexts)which
are typical in the whole corpus (and their mutual information with words), one
can construct high-quality word embedding with negligible errors. Mutual
information between contexts and words can be encoded canonically as a sampling
state, thus, Q-contexts can be fast constructed. Furthermore, we present an
efficient and effective WEQ method, which is capable of extracting word
embedding directly from these typical contexts. In practical scenarios, our
algorithm runs 11$\sim$13 times faster than well-established methods. By
comparing with well-known methods such as matrix factorization, word2vec,
GloVeand fasttext, we demonstrate that our method achieves comparable
performance on a variety of downstream NLP tasks, and in the meanwhile
maintains run-time and resource advantages over all these baselines.
- Abstract(参考訳): 単語埋め込みの概念は自然言語処理(NLP)において基本的な役割を果たす。
しかし、非常に大規模な語彙に対する事前学習語埋め込みは、既存のほとんどの手法では計算的に困難である。
本研究は,コーパス全体(および単語との相互情報)に典型的な文脈(Q-contexts)のごく一部で,無視可能な誤りを伴う高品質な単語埋め込みを構築することができることを示す。
文脈と単語間の相互情報はサンプル状態として正規に符号化することができ、Q-コンテキストを高速に構築することができる。
さらに、これらの典型的な文脈から直接単語埋め込みを抽出できる効率的かつ効果的なWEQ手法を提案する。
実用的なシナリオでは、アルゴリズムは確立されたメソッドよりも11$sim$13 高速で動作します。
行列分解, word2vec, GloVeand fasttext などのよく知られた手法と比較することにより,本手法が様々な下流 NLP タスクにおいて同等の性能を達成し,その一方で,これらのベースラインに対する実行時間とリソースの優位性を維持していることを示す。
関連論文リスト
- Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Deconstructing word embedding algorithms [17.797952730495453]
我々は、最もよく知られた単語埋め込みアルゴリズムのいくつかについて振り返りを提案する。
本研究では,Word2vec,GloVe,その他を共通形式に分解し,実演語埋め込みに必要な共通条件を明らかにした。
論文 参考訳(メタデータ) (2020-11-12T14:23:35Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。