論文の概要: Modeling Topics and Sociolinguistic Variation in Code-Switched Discourse: Insights from Spanish-English and Spanish-Guaraní
- arxiv url: http://arxiv.org/abs/2512.03334v1
- Date: Wed, 03 Dec 2025 00:56:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:58:22.249759
- Title: Modeling Topics and Sociolinguistic Variation in Code-Switched Discourse: Insights from Spanish-English and Spanish-Guaraní
- Title(参考訳): コード交替談話における話題のモデル化と社会言語学的変化:スペイン語・英語・スペイン語・グアラニーからの考察
- Authors: Nemika Tyagi, Nelvin Licona Guevara, Olga Kellert,
- Abstract要約: 本研究は, スペイン語とスペイン語の2つの異なる文脈において, バイリンガル言説の社会言語学的および話題的分析のためのLLM支援アノテーションパイプラインを提案する。
大規模言語モデルを用いて,3,691のコード切替文に対して,話題,ジャンル,言論的機能を自動的にラベル付けした。
結果として得られた分布は、マイアミのデータにおけるジェンダー、言語優位、談話機能と、パラグアイのテキストにおける正式なグアラーンと非公式なスペイン語の明確な区分の間の体系的な関係を明らかにしている。
- 参考スコア(独自算出の注目度): 1.0248720782518987
- License:
- Abstract: This study presents an LLM-assisted annotation pipeline for the sociolinguistic and topical analysis of bilingual discourse in two typologically distinct contexts: Spanish-English and Spanish-Guaraní. Using large language models, we automatically labeled topic, genre, and discourse-pragmatic functions across a total of 3,691 code-switched sentences, integrated demographic metadata from the Miami Bilingual Corpus, and enriched the Spanish-Guaraní dataset with new topic annotations. The resulting distributions reveal systematic links between gender, language dominance, and discourse function in the Miami data, and a clear diglossic division between formal Guaraní and informal Spanish in Paraguayan texts. These findings replicate and extend earlier interactional and sociolinguistic observations with corpus-scale quantitative evidence. The study demonstrates that large language models can reliably recover interpretable sociolinguistic patterns traditionally accessible only through manual annotation, advancing computational methods for cross-linguistic and low-resource bilingual research.
- Abstract(参考訳): 本研究は、スペイン語とスペイン語の2つの異なる文脈において、二言語会話の社会言語学的および話題的分析のためのLLM支援アノテーションパイプラインを提案する。
大規模言語モデルを用いて、合計3,691のコード切替文にトピック、ジャンル、言論的関数を自動的にラベル付けし、マイアミバイリンガルコーパスの人口統計メタデータを統合し、新しいトピックアノテーションでスペイン・グアラニデータセットを豊かにした。
その結果得られた分布は、マイアミのデータにおけるジェンダー、言語優位、談話機能と、パラグアイ語のテキストにおける公式のグアラーニと非公式のスペイン語の明確な区分の間の体系的な関係を明らかにしている。
これらの知見は、コーパススケールの定量的証拠との相互作用と社会言語学的観察を再現し、拡張した。
この研究は、大きな言語モデルが、伝統的にアクセス可能な解釈可能な社会言語パターンを、手動の注釈によってのみ確実に復元できることを示し、クロス言語と低リソースのバイリンガル研究のための計算手法を進歩させることを実証した。
関連論文リスト
- Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文 参考訳(メタデータ) (2022-09-15T21:19:31Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Global Syntactic Variation in Seven Languages: Towards a Computational
Dialectology [0.0]
我々はComputational Construction Grammarを使って、複製可能で偽造可能な構文的特徴セットを提供する。
我々は,Webcrawledおよびソーシャルメディアデータセットに基づくグローバル言語マッピングを用いて,国産品種の選択を決定する。
その結果,構築文法を用いて各言語のモデルが保持したサンプルの領域を頑健に予測できることが判明した。
論文 参考訳(メタデータ) (2021-04-03T03:40:21Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。