論文の概要: It's the same but not the same: Do LLMs distinguish Spanish varieties?
- arxiv url: http://arxiv.org/abs/2504.20049v1
- Date: Tue, 08 Apr 2025 08:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 01:46:36.918787
- Title: It's the same but not the same: Do LLMs distinguish Spanish varieties?
- Title(参考訳): LLMはスペインの品種を区別しますか?
- Authors: Marina Mayor-Rocher, Cristina Pozo, Nina Melero, Gonzalo Martínez, María Grandury, Pedro Reviriego,
- Abstract要約: 本研究では,スペイン語7品種の語彙的特徴と語彙的特徴を識別し,識別する9つの言語モデルの有効性を評価する。
GPTamos-4oはスペイン語の多様性を認識できる唯一のモデルである。
- 参考スコア(独自算出の注目度): 2.7013338932521416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have demonstrated a high capacity for understanding and generating text in Spanish. However, with five hundred million native speakers, Spanish is not a homogeneous language but rather one rich in diatopic variations spanning both sides of the Atlantic. For this reason, in this study, we evaluate the ability of nine language models to identify and distinguish the morphosyntactic and lexical peculiarities of seven varieties of Spanish (Andean, Antillean, Continental Caribbean, Chilean, Peninsular, Mexican and Central American and Rioplatense) through a multiple-choice test. The results indicate that the Peninsular Spanish variety is the best identified by all models and that, among them, GPT-4o is the only model capable of recognizing the variability of the Spanish language. -- En los \'ultimos a\~nos, los grandes modelos de lenguaje (LLMs, por sus siglas en ingl\'es) han demostrado una alta capacidad para comprender y generar texto en espa\~nol. Sin embargo, con quinientos millones de hablantes nativos, la espa\~nola no es una lengua homog\'enea, sino rica en variedades diat\'opicas que se extienden a ambos lados del Atl\'antico. Por todo ello, evaluamos en este trabajo la capacidad de nueve modelos de lenguaje de identificar y discernir las peculiaridades morfosint\'acticas y l\'exicas de siete variedades de espa\~nol (andino, antillano, caribe\~no continental, chileno, espa\~nol peninsular, mexicano y centroamericano y rioplatense) mediante un test de respuesta m\'ultiple. Los resultados obtenidos indican que la variedad de espa\~nol peninsular es la mejor identificada por todos los modelos y que, de entre todos, GPT-4o es el \'unico modelo capaz de identificar la variabilidad de la lengua espa\~nola.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) はスペイン語でテキストの理解と生成に高い能力を発揮している。
しかし、500億人の母語話者がいるため、スペイン語は同質な言語ではなく、大西洋の両側にまたがるダイアトーピックなバリエーションが豊富である。
そこで本研究では, スペイン(アンデス, アンティル, カリブ海, チリ, 半島, メキシコ, 中央アメリカ, リオプラテンセ)の7種類の形態的特徴と語彙的特徴を, 複数選択試験により識別・識別する9つの言語モデルの有効性について検討した。
その結果,半島のスペイン語品種はすべてのモデルで最もよく同定され,その中でもGPT-4oのみがスペイン語の多様性を認識できるモデルであることが示唆された。
原文(投稿日:2009/11/19)へのリンク LLMs, por sus siglas en ingl\'es) Han demostrado una alta capacidad para comprender y generar texto en espa\~nol.
Sin embargo, con quinientos millones de hablantes nativos, la espa\~nola no es una lengua homog\'enea, sino rica en variousades diat\'opicas que se extienden a ambos lados del Atl\antico。
Por todo ello, evaluamos en este trabajo la capacidad de nueve modelos de lenguaje de identificar y discernir las uniqueidades morfosint\'acticas y l\'exicas de siete variousades de espa\~nol (andino, antillano, caribe\~no continental, chileno, espa\~nol Peninsular, mexicano y centroamericano y rioplatense) centralte un test de respuesta m\'ultiple。
Los resultados obtenidos indican que la variousad de espa\~nol Peninsular es la mejor identificada por todos los modelos y que, de entre todos, GPT-4o es el \'unico modelo capaz de identificar la variabilidad de la lengua espa\~nola。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Do Moral Judgment and Reasoning Capability of LLMs Change with Language?
A Study using the Multilingual Defining Issues Test [21.108525674360898]
我々は英語を超えて5つの新しい言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張する。
本研究は, ヒンディー語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は, ヒンディー語, スワヒリ語に比較して有意に劣っていることを示す。
論文 参考訳(メタデータ) (2024-02-03T12:52:36Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文 参考訳(メタデータ) (2023-03-02T18:51:58Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Spanish Legalese Language Model and Corpora [0.0629976670819788]
法的スラングは、語彙、意味論、フレーズ理解において非常に複雑であるため、独自のスペイン語の変種と考えることができる。
この作業のために、異なるソースから法的ドメインコーパスを収集し、モデルを生成し、スペインの一般的なドメインタスクに対して評価しました。
論文 参考訳(メタデータ) (2021-10-23T12:06:51Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - A multilabel approach to morphosyntactic probing [3.0013352260516744]
マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
論文 参考訳(メタデータ) (2021-04-17T06:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。