論文の概要: Language, Place, and Social Media: Geographic Dialect Alignment in New Zealand
- arxiv url: http://arxiv.org/abs/2604.15744v1
- Date: Fri, 17 Apr 2026 06:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.769454
- Title: Language, Place, and Social Media: Geographic Dialect Alignment in New Zealand
- Title(参考訳): 言語, 場所, ソーシャルメディア:ニュージーランドにおけるジオグラフィック・アライメント
- Authors: Sidney Wong,
- Abstract要約: 本研究は, 言語使用が言語変化の場所識別とパターンを, ユーザインフォームド語彙, モルフォシンタクティック, セマンティック変数に基づいてどのように反映するかを考察する。
この研究には、426億の未処理語を含むコーパスの作成が含まれており、将来の研究に貴重なリソースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis investigates geographic dialect alignment in place-informed social media communities, focussing on New Zealand-related Reddit communities. By integrating qualitative analyses of user perceptions with computational methods, the study examines how language use reflects place identity and patterns of language variation and change based on user-informed lexical, morphosyntactic, and semantic variables. The findings show that users generally associate language with place, and place-related communities form a contiguous speech community, though alignment between geographic dialect communities and place-related communities remains complex. Advanced language modelling, including static and diachronic Word2Vec language embeddings, revealed semantic variation across place-based communities and meaningful semantic shifts within New Zealand English. The research involved the creation of a corpus containing 4.26 billion unprocessed words, which offers a valuable resource for future study. Overall, the results highlight the potential of social media as a natural laboratory for sociolinguistic inquiry.
- Abstract(参考訳): この論文は、ニュージーランド関連のRedditコミュニティに焦点を当てた、場所情報のあるソーシャルメディアコミュニティにおける地理的方言のアライメントを調査している。
本研究は,ユーザ知覚の質的分析と計算手法を組み合わせることにより,ユーザインフォームド語彙,形態素構文,意味的変数に基づいて,言語使用が場所の同一性や言語変化のパターンをどのように反映しているかを考察する。
この結果から,地理的方言群落と場所関連群集との整合性は複雑でありながら,場所関連群集が連続した言語群集を形成することが示唆された。
静的およびダイアクロニックなWord2Vec言語埋め込みを含む高度な言語モデリングは、場所ベースコミュニティにおける意味的変化とニュージーランド英語における意味的な意味的変化を明らかにした。
この研究には、426億の未処理語を含むコーパスの作成が含まれており、将来の研究に貴重なリソースを提供する。
全体としては、社会言語学的調査のための自然実験室としてのソーシャルメディアの可能性を強調している。
関連論文リスト
- Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Detecting Linguistic Diversity on Social Media [1.3108652488669732]
我々は、公表された国勢調査データを基礎的真実として、また、グローバル言語利用コーパスのソーシャルメディアサブコーパスを代替データソースとして使用しています。
ソーシャルメディアデータセットにおける各ツイートの言語条件を特定し、2つの言語識別モデルを用いて結果を検証する。
その結果,ソーシャルメディアの言語データは,ある場所の言語的プロファイルに関する空間的・時間的洞察の豊富な情報源となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-28T16:56:34Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas [1.0128808054306186]
本稿では,ニュージーランドのAotearoaにおけるオンライン空間(ソーシャルメディア言語データ)と実世界の空間の比較言語生態について述べる。
我々はこれらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディアユーザーが現実世界の人口とどのように一致しているかについて議論する。
論文 参考訳(メタデータ) (2023-08-21T03:54:23Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Learning to Adapt Domain Shifts of Moral Values via Instance Weighting [74.94940334628632]
ソーシャルメディアからユーザ生成テキストの道徳的価値を分類することは、コミュニティ文化を理解する上で重要である。
道徳的価値観と言語使用法は、社会運動全体で変化しうる。
本稿では、ドメイン間分類タスクを改善するために、インスタンス重み付けによるニューラルネットワーク適応フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-15T18:15:41Z) - Characterizing English Variation across Social Media Communities with
BERT [9.98785450861229]
474のRedditコミュニティで2ヶ月の英語コメントを分析した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
論文 参考訳(メタデータ) (2021-02-12T23:50:57Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Where New Words Are Born: Distributional Semantic Analysis of Neologisms
and Their Semantic Neighborhoods [51.34667808471513]
分散意味論のパラダイムで定式化されたセマンティック隣人のセマンティック・スパシティと周波数成長率という2つの要因の重要性について検討する。
いずれの因子も単語の出現を予測できるが,後者の仮説はより支持される。
論文 参考訳(メタデータ) (2020-01-21T19:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。