論文の概要: Language statistics at different spatial, temporal, and grammatical
scales
- arxiv url: http://arxiv.org/abs/2207.00709v1
- Date: Sat, 2 Jul 2022 01:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:07:58.362924
- Title: Language statistics at different spatial, temporal, and grammatical
scales
- Title(参考訳): 空間的・時間的・文法的尺度の異なる言語統計
- Authors: Fernanda S\'anchez-Puig, Rogelio Lozano-Aranda, Dante
P\'erez-M\'endez, Ewan Colman, Alfredo J. Morales-Guzm\'an, Carlos Pineda,
and Carlos Gershenson
- Abstract要約: Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
- 参考スコア(独自算出の注目度): 48.7576911714538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical linguistics has advanced considerably in recent decades as data
has become available. This has allowed researchers to study how statistical
properties of languages change over time. In this work, we use data from
Twitter to explore English and Spanish considering the rank diversity at
different scales: temporal (from 3 to 96 hour intervals), spatial (from 3km to
3000+km radii), and grammatical (from monograms to pentagrams). We find that
all three scales are relevant. However, the greatest changes come from
variations in the grammatical scale. At the lowest grammatical scale
(monograms), the rank diversity curves are most similar, independently on the
values of other scales, languages, and countries. As the grammatical scale
grows, the rank diversity curves vary more depending on the temporal and
spatial scales, as well as on the language and country. We also study the
statistics of Twitter-specific tokens: emojis, hashtags, and user mentions.
These particular type of tokens show a sigmoid kind of behaviour as a rank
diversity function. Our results are helpful to quantify aspects of language
statistics that seem universal and what may lead to variations.
- Abstract(参考訳): 統計言語学は、データが利用可能になるにつれて、ここ数十年でかなり進歩してきた。
これにより、研究者は言語の統計的性質が時間とともにどのように変化するかを研究できるようになった。
本研究では,twitterのデータを用いて,時間的(3~96時間間隔),空間的(3km~3000kmradii),文法的(モノグラムからペンタグラムまで)の階層的多様性を考慮した英語とスペイン語の検索を行った。
3つの尺度がすべて関連していることが分かります。
しかし、最も大きな変化は文法スケールの変化によるものである。
最も低い文法尺度(モノグラム)では、ランクの多様性曲線は、他の尺度、言語、国の値とは独立に最もよく似ている。
文法的なスケールが成長するにつれて、ランクの多様性曲線は、時間的スケールや空間的スケール、言語や国によって大きく変化する。
また、Twitter固有のトークン(絵文字、ハッシュタグ、ユーザーの言及など)の統計も調べる。
これらの特定の種類のトークンは、階数多様性関数としてシグモイド的な振る舞いを示す。
我々の結果は、普遍的と思われる言語統計学の側面を定量化し、バリエーションにつながる可能性があることを示唆する。
関連論文リスト
- Evolving linguistic divergence on polarizing social media [0.0]
会話や単語の頻度、メッセージの感情、単語や絵文字の語彙的意味論といったトピックのばらつきを定量化する。
アメリカの英語は、大きな言語コミュニティの中ではほとんど理解できないが、私たちの発見は、コミュニケーションの誤りが生じる可能性のある領域を指し示している。
論文 参考訳(メタデータ) (2023-09-04T15:21:55Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Geolocation differences of language use in urban areas [0.0]
都市部における言語利用の空間的変動を解決するために,正確な位置情報情報を用いたTwitterデータの利用について検討した。
本研究は,小規模変動の分析により,言語使用と社会的文脈の相関関係について一意的な情報が得られることを示す。
論文 参考訳(メタデータ) (2021-08-01T19:55:45Z) - A Statistical Model of Word Rank Evolution [1.1011268090482575]
本研究は,Google Books corpus unigram frequency data を用いて,8言語における単語ランクのダイナミクスについて検討する。
1900年から2008年にかけてのユニグラムの階数変化を観察し、分析のために開発したライト・フィッシャーモデルと比較した。
論文 参考訳(メタデータ) (2021-07-21T08:57:32Z) - Capturing the diversity of multilingual societies [0.0]
我々は、理論とデータ駆動の観点から、言語シフトにおける作業プロセスについて考察する。
twitterと国勢調査データを用いた多言語社会における言語空間パターンの大規模実証研究は、幅広い多様性をもたらす。
本稿では,他言語の学習が促進され,両言語が絶滅危惧言語の使用を好む場合に,言語共存が達成できるモデルを提案する。
論文 参考訳(メタデータ) (2021-05-06T10:27:43Z) - Measuring Linguistic Diversity During COVID-19 [1.0312968200748118]
本稿では、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の尺度を校正する。
これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。
本稿では,Herfindahl-Hirschman Indexに基づく差分差分法により,非地域住民が導入したディジタルコーパスの偏りを同定できることを示す。
論文 参考訳(メタデータ) (2021-04-03T02:09:37Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。