論文の概要: Norm of Word Embedding Encodes Information Gain
- arxiv url: http://arxiv.org/abs/2212.09663v3
- Date: Thu, 2 Nov 2023 16:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 18:24:06.843749
- Title: Norm of Word Embedding Encodes Information Gain
- Title(参考訳): 情報ゲインを符号化する単語埋め込みの規範
- Authors: Momose Oyama, Sho Yokoi, Hidetoshi Shimodaira
- Abstract要約: 静的単語埋め込みの2乗ノルムは,単語が伝達する情報ゲインを符号化することを示す。
また、KLの発散と埋め込みの2乗ノルムの両方が、単語の有意性を示す有用な指標であることを示した。
- 参考スコア(独自算出の注目度): 7.934452214142754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed representations of words encode lexical semantic information, but
what type of information is encoded and how? Focusing on the skip-gram with
negative-sampling method, we found that the squared norm of static word
embedding encodes the information gain conveyed by the word; the information
gain is defined by the Kullback-Leibler divergence of the co-occurrence
distribution of the word to the unigram distribution. Our findings are
explained by the theoretical framework of the exponential family of probability
distributions and confirmed through precise experiments that remove spurious
correlations arising from word frequency. This theory also extends to
contextualized word embeddings in language models or any neural networks with
the softmax output layer. We also demonstrate that both the KL divergence and
the squared norm of embedding provide a useful metric of the informativeness of
a word in tasks such as keyword extraction, proper-noun discrimination, and
hypernym discrimination.
- Abstract(参考訳): 単語の分散表現は語彙意味情報をエンコードするが、どのような情報をエンコードしてどのようにするか?
負サンプル法によるスキップグラムに着目し,静的単語埋め込みの2乗ノルムは単語が伝達する情報ゲインを符号化し,その情報ゲインは単語の共起分布からユニグラム分布へのKullback-Leibler分散によって定義される。
本研究は,確率分布の指数関数系の理論的枠組みによって説明され,単語頻度による素因相関を除去する精密な実験によって確認された。
この理論はまた、言語モデルやsoftmax出力層を持つニューラルネットワークにコンテキスト化された単語埋め込みにも拡張される。
また,klの発散と埋め込みの2乗ノルムは,キーワード抽出,固有名詞識別,ハイパーニム識別といったタスクにおいて,単語の有意性を示す有用な指標となることを示す。
関連論文リスト
- Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。
文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。
次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-02T14:08:51Z) - Probing with Noise: Unpicking the Warp and Weft of Embeddings [2.9874726192215157]
ベクトルノルムは言語情報も持てると論じる。
提案手法は,探索フレームワークの拡張である。
英語GloVe と BERT の埋め込みにおける別個の情報コンテナの存在を裏付ける証拠が見つかった。
論文 参考訳(メタデータ) (2022-10-21T19:33:33Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Integrating Information Theory and Adversarial Learning for Cross-modal
Retrieval [19.600581093189362]
マルチメディアコミュニティでは,クロスモーダル検索における視覚データとテキストデータのマッチングが広く研究されている。
シャノン情報理論と対比学習の統合を提案する。
ギャップの観点からは,モダリティ分類と情報エントロピーを相反的に統合する。
論文 参考訳(メタデータ) (2021-04-11T11:04:55Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Neutralizing Gender Bias in Word Embedding with Latent Disentanglement
and Counterfactual Generation [25.060917870666803]
適応的な勾配反転層を有するシアム自動エンコーダ構造を導入する。
我々の構造は,単語の意味潜時情報と性別潜時情報を,非結合潜時次元に分離することを可能にする。
論文 参考訳(メタデータ) (2020-04-07T05:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。