論文の概要: A large scale lexical and semantic analysis of Spanish language
variations in Twitter
- arxiv url: http://arxiv.org/abs/2110.06128v1
- Date: Tue, 12 Oct 2021 16:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 16:50:21.537246
- Title: A large scale lexical and semantic analysis of Spanish language
variations in Twitter
- Title(参考訳): twitterにおけるスペイン語変化の大規模語彙分析と意味分析
- Authors: Eric S. Tellez and Daniela Moctezuma and Sabino Miranda and Mario
Graff
- Abstract要約: この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
- 参考スコア(独自算出の注目度): 2.3511629321667096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialectometry is a discipline devoted to studying the variations of a
language around a geographical region. One of their goals is the creation of
linguistic atlases capturing the similarities and differences of the language
under study around the area in question. For instance, Spanish is one of the
most spoken languages across the world, but not necessarily Spanish is written
and spoken in the same way in different countries. This manuscript presents a
broad analysis describing lexical and semantic relationships among 26
Spanish-speaking countries around the globe. For this study, we analyze
four-year of the Twitter geotagged public stream to provide an extensive survey
of the Spanish language vocabularies of different countries, its distributions,
semantic usage of terms, and emojis. We also offer open regional word-embedding
resources for Spanish Twitter to help other researchers and practitioners take
advantage of regionalized models.
- Abstract(参考訳): ダイアレクトメトリー(Diterlectometry)は、地理的領域周辺の言語の変化を研究する専門分野である。
彼らの目標の1つは、問題の領域で研究中の言語の類似性と相違を捉える言語的アトラスの作成である。
例えば、スペイン語は世界中で最も話されている言語の1つだが、必ずしも異なる国で同じようにスペイン語が書かれ、話されているわけではない。
この写本は、世界中の26のスペイン語圏における語彙的・意味的関係を記述した広範な分析を示している。
本研究では,twitterのジオタグ付き公開ストリームの4年間を分析し,各国のスペイン語語彙,分布,用語の意味的使用,絵文字について広範な調査を行った。
また、他の研究者や実践者が地域モデルを活用できるように、スペイン語のTwitterにオープンな地域語埋め込みリソースを提供しています。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - Historical Ink: Semantic Shift Detection for 19th Century Spanish [0.0]
本稿では,ラテンアメリカ・スペイン語を中心に,19世紀のスペイン語文における単語の意味の進化について考察する。
言語進化を理解する上で重要なセマンティックシフト検出(SSD)タスクに対処する。
論文 参考訳(メタデータ) (2024-07-08T16:49:34Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - The Geometry of Multilingual Language Models: An Equality Lens [2.6746119935689214]
ユークリッド空間における3つの多言語言語モデルの幾何学的解析を行う。
幾何学的分離性指数を用いて、言語は言語族によって近い傾向にあるが、それらは他族の言語とほぼ分離可能である。
論文 参考訳(メタデータ) (2023-05-13T05:19:15Z) - Spanish Legalese Language Model and Corpora [0.0629976670819788]
法的スラングは、語彙、意味論、フレーズ理解において非常に複雑であるため、独自のスペイン語の変種と考えることができる。
この作業のために、異なるソースから法的ドメインコーパスを収集し、モデルを生成し、スペインの一般的なドメインタスクに対して評価しました。
論文 参考訳(メタデータ) (2021-10-23T12:06:51Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。