論文の概要: Digital Linguistic Bias in Spanish: Evidence from Lexical Variation in LLMs
- arxiv url: http://arxiv.org/abs/2602.09346v1
- Date: Tue, 10 Feb 2026 02:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.336126
- Title: Digital Linguistic Bias in Spanish: Evidence from Lexical Variation in LLMs
- Title(参考訳): スペイン語のディジタル言語バイアス:LLMにおける語彙変化からの証拠
- Authors: Yoshifumi Kawasaki,
- Abstract要約: 本研究では,Large Language Models (LLMs) がスペイン語の地理的語彙変化をどの程度捉えているかを検討する。
LLMを仮想情報量として扱うことで、2つの調査スタイルの質問形式を用いて弁証的知識を探索する。
スペイン語圏21カ国で900以上の語彙項目を対象とし,国と方言圏の双方で実施した。
- 参考スコア(独自算出の注目度): 0.4771833920251869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the extent to which Large Language Models (LLMs) capture geographic lexical variation in Spanish, a language that exhibits substantial regional variation. Treating LLMs as virtual informants, we probe their dialectal knowledge using two survey-style question formats: Yes-No questions and multiple-choice questions. To this end, we exploited a large-scale, expert-curated database of Spanish lexical variation. Our evaluation covers more than 900 lexical items across 21 Spanish-speaking countries and is conducted at both the country and dialectal area levels. Across both evaluation formats, the results reveal systematic differences in how LLMs represent Spanish language varieties. Lexical variation associated with Spain, Equatorial Guinea, Mexico & Central America, and the La Plata River is recognized more accurately by the models, while the Chilean variety proves particularly difficult for the models to distinguish. Importantly, differences in the volume of country-level digital resources do not account for these performance patterns, suggesting that factors beyond data quantity shape dialectal representation in LLMs. By providing a fine-grained, large-scale evaluation of geographic lexical variation, this work advances empirical understanding of dialectal knowledge in LLMs and contributes new evidence to discussions of Digital Linguistic Bias in Spanish.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) がスペイン語の地理的語彙変化をどの程度捉えているかを検討する。
LLMを仮想情報量として扱うことで、2つの調査スタイルの質問形式を用いて弁証的知識を探索する。
この目的のために、スペインの語彙変化の大規模で専門家によるデータベースを利用した。
スペイン語圏21ヶ国で900以上の語彙項目を対象とし,国と方言圏の双方で実施した。
その結果,LLMがスペイン語の変種をどのように表現するかの体系的な違いが明らかになった。
スペイン、赤道ギニア、メキシコ、中央アメリカ、ラプラタ川に関連する語彙の変化は、モデルによってより正確に認識されるが、チリの品種は、モデルを区別することが特に難しいことを証明している。
重要なことは、国レベルのデジタルリソースの量の違いは、これらのパフォーマンスパターンを考慮せず、LLMにおけるデータ量形弁証表現以外の要因が示唆されている。
この研究はLLMにおける方言知識の実証的理解を促進し、スペイン語におけるデジタル言語バイアスの議論に新たなエビデンスを貢献する。
関連論文リスト
- Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Multi-FAct: Assessing Factuality of Multilingual LLMs using FActScore [14.91669562846729]
多様な言語にFActScoreを適用することで,多言語事実性評価のための簡易パイプラインを提案する。
地域多様性を反映したトピックにおける長文生成の事実的精度を評価する。
論文 参考訳(メタデータ) (2024-02-28T04:43:46Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。