論文の概要: Statistical analysis of word flow among five Indo-European languages
- arxiv url: http://arxiv.org/abs/2301.06985v1
- Date: Tue, 17 Jan 2023 16:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:43:17.331081
- Title: Statistical analysis of word flow among five Indo-European languages
- Title(参考訳): インド・ヨーロッパ5言語における単語フローの統計的分析
- Authors: Josu\'e Ely Molina, Jorge Flores, Carlos Gershenson and Carlos Pineda
- Abstract要約: Google Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。
我々は「移民語」とは、その綴りを変えない借用語の一種である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent increase in data availability has allowed the possibility to perform
different statistical linguistic studies. Here we use the Google Books Ngram
dataset to analyze word flow among English, French, German, Italian, and
Spanish. We study what we define as ``migrant words'', a type of loanwords that
do not change their spelling. We quantify migrant words from one language to
another for different decades, and notice that most migrant words can be
aggregated in semantic fields and associated to historic events. We also study
the statistical properties of accumulated migrant words and their rank
dynamics. We propose a measure of use of migrant words that could be used as a
proxy of cultural influence. Our methodology is not exempt of caveats, but our
results are encouraging to promote further studies in this direction.
- Abstract(参考訳): 近年のデータ可用性が向上し、異なる統計的言語研究が可能となった。
ここではGoogle Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。
我々は「移民語」と定義するものについて研究するが、これは綴りを変えない借用語の一種である。
私たちは、ある言語から別の言語への移民語を何十年も定量化し、ほとんどの移民語が意味的分野に集約され、歴史的な出来事に関連付けられることに気付きました。
また,累積単語の統計特性とランクダイナミクスについても検討した。
本稿では,文化影響の指標として使用できる移民語の使用方法を提案する。
我々の方法論は注意事項を免除するものではないが、我々の結果は、この方向のさらなる研究を促進することを奨励している。
関連論文リスト
- MEDs for PETs: Multilingual Euphemism Disambiguation for Potentially
Euphemistic Terms [10.154915854525928]
マルチリンガル・クロスリンガル・セッティングにおいて,多言語変換モデル (XLM-RoBERTa) を訓練し,潜在的エフェミスティック・用語 (PET) の曖昧さを解消する。
統計的に有意なマージンによる単言語モデルと比較して,多言語モデルの方がタスク上でより優れた性能を示すことを示す。
フォローアップ分析では,死や身体機能などの普遍的な「カテゴリー」に注目した。
論文 参考訳(メタデータ) (2024-01-25T21:38:30Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Language statistics at different spatial, temporal, and grammatical
scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文 参考訳(メタデータ) (2022-07-02T01:38:48Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Using Known Words to Learn More Words: A Distributional Analysis of
Child Vocabulary Development [0.0]
分布統計の語彙特性を用いた語彙発達におけるアイテムベース変動について検討した。
単語軌跡を横断的に予測し,語彙発達の傾向に光を当てた。
また, 子どもが単語を知っているかどうかの最適な分布予測器は, 単語が共起する傾向にある他の単語の数であることを示す。
論文 参考訳(メタデータ) (2020-09-15T01:18:21Z) - Cross-Lingual Word Embeddings for Turkic Languages [1.418033127602866]
言語間の単語埋め込みは、リソース豊富な言語から低リソース言語に知識を移すことができる。
トルコ語、ウズベク語、アゼリ語、カザフ語、キルギス語に言語間単語を埋め込む方法を示す。
論文 参考訳(メタデータ) (2020-05-17T18:57:23Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Where New Words Are Born: Distributional Semantic Analysis of Neologisms
and Their Semantic Neighborhoods [51.34667808471513]
分散意味論のパラダイムで定式化されたセマンティック隣人のセマンティック・スパシティと周波数成長率という2つの要因の重要性について検討する。
いずれの因子も単語の出現を予測できるが,後者の仮説はより支持される。
論文 参考訳(メタデータ) (2020-01-21T19:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。