論文の概要: A Statistical Model of Word Rank Evolution
- arxiv url: http://arxiv.org/abs/2107.09948v1
- Date: Wed, 21 Jul 2021 08:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 20:03:14.046873
- Title: A Statistical Model of Word Rank Evolution
- Title(参考訳): 単語ランク進化の統計的モデル
- Authors: Alex John Quijano, Rick Dale, and Suzanne Sindi
- Abstract要約: 本研究は,Google Books corpus unigram frequency data を用いて,8言語における単語ランクのダイナミクスについて検討する。
1900年から2008年にかけてのユニグラムの階数変化を観察し、分析のために開発したライト・フィッシャーモデルと比較した。
- 参考スコア(独自算出の注目度): 1.1011268090482575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of large linguistic data sets enables data-driven approaches
to study linguistic change. This work explores the word rank dynamics of eight
languages by investigating the Google Books corpus unigram frequency data set.
We observed the rank changes of the unigrams from 1900 to 2008 and compared it
to a Wright-Fisher inspired model that we developed for our analysis. The model
simulates a neutral evolutionary process with the restriction of having no
disappearing words. This work explains the mathematical framework of the model
- written as a Markov Chain with multinomial transition probabilities - to show
how frequencies of words change in time. From our observations in the data and
our model, word rank stability shows two types of characteristics: (1) the
increase/decrease in ranks are monotonic, or (2) the average rank stays the
same. Based on our model, high-ranked words tend to be more stable while
low-ranked words tend to be more volatile. Some words change in ranks in two
ways: (a) by an accumulation of small increasing/decreasing rank changes in
time and (b) by shocks of increase/decrease in ranks. Most of the stopwords and
Swadesh words are observed to be stable in ranks across eight languages. These
signatures suggest unigram frequencies in all languages have changed in a
manner inconsistent with a purely neutral evolutionary process.
- Abstract(参考訳): 大規模な言語データセットが利用できることで、言語変化を研究するためのデータ駆動アプローチが可能になる。
本研究は,Google Books corpus unigram frequency data を用いて,8言語における単語ランクのダイナミクスについて検討する。
1900年から2008年にかけてのユニグラムの階数変化を観察し、分析のために開発したライト・フィッシャーモデルと比較した。
このモデルは、消失する単語を持たないことの制限により、中立的な進化過程をシミュレートする。
この研究は、多項遷移確率を持つマルコフ連鎖として記述されたモデルの数学的枠組みを説明し、単語の頻度が時間とともにどのように変化するかを示す。
データとモデルでの観察から,単語ランクの安定性は,(1)ランクの上昇・減少が単調であること,あるいは(2)平均階数が同じであること,の2つの特徴を示す。
本モデルでは,高ランク語は安定性が高く,低ランク語は揮発性が高い傾向にある。
a)小さな増加/減少の累積による階数の変化と(b)階数の増加/減少の衝撃による階数の変化である。
ストップワードとスワデシュ語の単語のほとんどは、8つの言語で安定している。
これらの署名は、すべての言語のユニグラム周波数が純粋に中立な進化過程と矛盾する方法で変化したことを示唆している。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - Language statistics at different spatial, temporal, and grammatical
scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文 参考訳(メタデータ) (2022-07-02T01:38:48Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Word2rate: training and evaluating multiple word embeddings as
statistical transitions [4.350783459690612]
単語順に敏感なタスクのパフォーマンスを向上させる,新しい左サイドコンテキスト分割目標を提案する。
私たちの word2rate モデルは、さまざまな言語タスクで競争しながら、レート行列を用いた統計基礎に基礎を置いている。
論文 参考訳(メタデータ) (2021-04-16T15:31:29Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。