Fugu-MT 論文翻訳(概要): Statistical analysis of word flow among five Indo-European languages

論文の概要: Statistical analysis of word flow among five Indo-European languages

arxiv url: http://arxiv.org/abs/2301.06985v1
Date: Tue, 17 Jan 2023 16:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 13:43:17.331081
Title: Statistical analysis of word flow among five Indo-European languages
Title（参考訳）: インド・ヨーロッパ5言語における単語フローの統計的分析
Authors: Josu\'e Ely Molina, Jorge Flores, Carlos Gershenson and Carlos Pineda
Abstract要約: Google Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。我々は「移民語」とは、その綴りを変えない借用語の一種である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A recent increase in data availability has allowed the possibility to perform different statistical linguistic studies. Here we use the Google Books Ngram dataset to analyze word flow among English, French, German, Italian, and Spanish. We study what we define as ``migrant words'', a type of loanwords that do not change their spelling. We quantify migrant words from one language to another for different decades, and notice that most migrant words can be aggregated in semantic fields and associated to historic events. We also study the statistical properties of accumulated migrant words and their rank dynamics. We propose a measure of use of migrant words that could be used as a proxy of cultural influence. Our methodology is not exempt of caveats, but our results are encouraging to promote further studies in this direction.
Abstract（参考訳）: 近年のデータ可用性が向上し、異なる統計的言語研究が可能となった。ここではGoogle Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。我々は「移民語」と定義するものについて研究するが、これは綴りを変えない借用語の一種である。私たちは、ある言語から別の言語への移民語を何十年も定量化し、ほとんどの移民語が意味的分野に集約され、歴史的な出来事に関連付けられることに気付きました。また,累積単語の統計特性とランクダイナミクスについても検討した。本稿では,文化影響の指標として使用できる移民語の使用方法を提案する。我々の方法論は注意事項を免除するものではないが、我々の結果は、この方向のさらなる研究を促進することを奨励している。

関連論文リスト

A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文参考訳（メタデータ） (2025-02-09T13:15:59Z)
A Grounded Typology of Word Classes [7.201565960962933]
情報理論に触発されて、意味的満足度を実証的な尺度として「接地性」を定義した。我々の測度は言語間の機能的(文法的)クラスと語彙的(コンテンツ的)クラスの間の満足度非対称性を捉えている。 30の言語に対する基底性スコアのデータセットをリリースします。
論文参考訳（メタデータ） (2024-12-13T18:58:48Z)
Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
Crowdsourcing Lexical Diversity [7.569845058082537]
本稿では,レキシコンのバイアス低減のための新しいクラウドソーシング手法を提案する。群衆労働者は2つの言語からの語彙を比較し、親族や食べ物といった語彙の多様性に富む領域に焦点を当てる。食品関連用語に焦点をあてた2つのケーススタディに適用し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2024-10-30T15:45:09Z)
Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文参考訳（メタデータ） (2024-10-28T22:09:43Z)
MEDs for PETs: Multilingual Euphemism Disambiguation for Potentially Euphemistic Terms [10.154915854525928]
マルチリンガル・クロスリンガル・セッティングにおいて,多言語変換モデル (XLM-RoBERTa) を訓練し,潜在的エフェミスティック・用語 (PET) の曖昧さを解消する。統計的に有意なマージンによる単言語モデルと比較して,多言語モデルの方がタスク上でより優れた性能を示すことを示す。フォローアップ分析では,死や身体機能などの普遍的な「カテゴリー」に注目した。
論文参考訳（メタデータ） (2024-01-25T21:38:30Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文参考訳（メタデータ） (2023-08-24T19:49:30Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
Language statistics at different spatial, temporal, and grammatical scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。最も大きな変化は、文法的なスケールのバリエーションによる。文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文参考訳（メタデータ） (2022-07-02T01:38:48Z)
Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。 3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文参考訳（メタデータ） (2021-01-30T18:59:43Z)
Using Known Words to Learn More Words: A Distributional Analysis of Child Vocabulary Development [0.0]
分布統計の語彙特性を用いた語彙発達におけるアイテムベース変動について検討した。単語軌跡を横断的に予測し,語彙発達の傾向に光を当てた。また, 子どもが単語を知っているかどうかの最適な分布予測器は, 単語が共起する傾向にある他の単語の数であることを示す。
論文参考訳（メタデータ） (2020-09-15T01:18:21Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。