論文の概要: Zipfian Whitening
- arxiv url: http://arxiv.org/abs/2411.00680v1
- Date: Fri, 01 Nov 2024 15:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:45.045457
- Title: Zipfian Whitening
- Title(参考訳): Zipfian (複数形 Zipfians)
- Authors: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira,
- Abstract要約: 埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 7.927385005964994
- License:
- Abstract: The word embedding space in neural models is skewed, and correcting this can improve task performance. We point out that most approaches for modeling, correcting, and measuring the symmetry of an embedding space implicitly assume that the word frequencies are uniform; in reality, word frequencies follow a highly non-uniform distribution, known as Zipf's law. Surprisingly, simply performing PCA whitening weighted by the empirical word frequency that follows Zipf's law significantly improves task performance, surpassing established baselines. From a theoretical perspective, both our approach and existing methods can be clearly categorized: word representations are distributed according to an exponential family with either uniform or Zipfian base measures. By adopting the latter approach, we can naturally emphasize informative low-frequency words in terms of their vector norm, which becomes evident from the information-geometric perspective, and in terms of the loss functions for imbalanced classification. Additionally, our theory corroborates that popular natural language processing methods, such as skip-gram negative sampling, WhiteningBERT, and headless language models, work well just because their word embeddings encode the empirical word frequency into the underlying probabilistic model.
- Abstract(参考訳): ニューラルモデルにおける単語埋め込みスペースは歪んでいて、これを修正すればタスクのパフォーマンスが向上する。
埋め込み空間の対称性をモデル化し、修正し、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定していることを指摘し、実際、単語の周波数はZipfの法則として知られる非常に一様でない分布に従う。
意外なことに、Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化は、確立されたベースラインを超え、タスクパフォーマンスを著しく向上させる。
理論的には、我々のアプローチと既存の手法の両方が明確に分類できる: 単語表現は、一様またはZipfianベースの尺度を持つ指数族に従って分布する。
後者の手法を採用することで,情報幾何学的視点から明らかになるベクトルノルムや,不均衡な分類における損失関数の観点から,情報的低周波単語を自然に強調することができる。
さらに,本理論は,単語埋め込みが経験的単語頻度を基礎となる確率モデルにエンコードするからといって,スキップグラム陰性サンプリングやWhiteningBERT,ヘッドレス言語モデルなどの一般的な自然言語処理手法がうまく動作することを裏付けるものである。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Unsupervised Sentence Representation Learning with Frequency-induced
Adversarial Tuning and Incomplete Sentence Filtering [14.085826003974187]
SLT-FAI(SLT-FAI)を用いた文表現学習を提案する。
PLMは、事前学習したコーパスからの単語の周波数情報に敏感であり、異方性埋め込み空間となる。
いくつかの低頻度単語をランダムにマスキングすることで、原文と不完全文の埋め込みを識別するために、情報識別器を組み込んだ。
論文 参考訳(メタデータ) (2023-05-15T13:59:23Z) - Norm of Word Embedding Encodes Information Gain [7.934452214142754]
静的単語埋め込みの2乗ノルムは,単語が伝達する情報ゲインを符号化することを示す。
また、KLの発散と埋め込みの2乗ノルムの両方が、単語の有意性を示す有用な指標であることを示した。
論文 参考訳(メタデータ) (2022-12-19T17:45:07Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - The empirical structure of word frequency distributions [0.0]
私は、ほとんどの言語で、ファーストネームが自然なコミュニケーションの分布を形成することを示します。
このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製されることを示す。
論文 参考訳(メタデータ) (2020-01-09T20:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。