論文の概要: Crossing Borders Without Crossing Boundaries: How Sociolinguistic Awareness Can Optimize User Engagement with Localized Spanish AI Models Across Hispanophone Countries
- arxiv url: http://arxiv.org/abs/2505.09902v1
- Date: Thu, 15 May 2025 02:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.152847
- Title: Crossing Borders Without Crossing Boundaries: How Sociolinguistic Awareness Can Optimize User Engagement with Localized Spanish AI Models Across Hispanophone Countries
- Title(参考訳): 境界を越えることなく国境を横切る: ソシオリンガ主義的意識は、ヒスパノフォン諸国をまたいだスペインのAIモデルでユーザーエンゲージメントを最適化する
- Authors: Martin Capdevila, Esteban Villa Turek, Ellen Karina Chumbe Fernandez, Luis Felipe Polo Galvez, Luis Cadavid, Andrea Marroquin, Rebeca Vargas Quesada, Johanna Crew, Nicole Vallejo Galarraga, Christopher Rodriguez, Diego Gutierrez, Radhi Datla,
- Abstract要約: 本稿では,ラテンアメリカとスペインにおけるスペイン語の変種の主な相違について検討する。
これらの違いは、方言群におけるスペイン語のクオーディアン使用における重要なギャップを効果的に担っていると論じる。
- 参考スコア(独自算出の注目度): 2.9077003389053293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are, by definition, based on language. In an effort to underscore the critical need for regional localized models, this paper examines primary differences between variants of written Spanish across Latin America and Spain, with an in-depth sociocultural and linguistic contextualization therein. We argue that these differences effectively constitute significant gaps in the quotidian use of Spanish among dialectal groups by creating sociolinguistic dissonances, to the extent that locale-sensitive AI models would play a pivotal role in bridging these divides. In doing so, this approach informs better and more efficient localization strategies that also serve to more adequately meet inclusivity goals, while securing sustainable active daily user growth in a major low-risk investment geographic area. Therefore, implementing at least the proposed five sub variants of Spanish addresses two lines of action: to foment user trust and reliance on AI language models while also demonstrating a level of cultural, historical, and sociolinguistic awareness that reflects positively on any internationalization strategy.
- Abstract(参考訳): 大規模言語モデルは定義上、言語に基づくものである。
そこで本研究では,ラテンアメリカとスペインをまたいだスペイン語の変種と,より深い社会文化的・言語的文脈化の相違点について検討する。
これらの違いは、言語学的不協和を生み出すことによって、方言群間のスペイン語使用における有意なギャップを効果的に生んでいると我々は主張する。
このアプローチは、リスクの低い主要地域において、持続可能なアクティブな日々のユーザー成長を確保しながら、インクリビティ目標を適切に満たすのに役立つ、より良い、より効率的なローカライゼーション戦略を通知する。
ユーザ信頼とAI言語モデルへの信頼を損なうと同時に、あらゆる国際化戦略に肯定的な文化的、歴史的、社会言語的な認識のレベルを示す。
関連論文リスト
- Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models [7.811355338367627]
大規模言語モデル (LLMs) は, 言語多様性の顕著な低下と関係があることが示唆された。
テキストの中核的な内容は、LLMがテキストを洗練・書き直しする際に保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴やバイアスを選択的に増幅し、他を抑圧する方法でスタイル的要素を変更することも示している。
論文 参考訳(メタデータ) (2025-02-16T20:51:07Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Speech Analysis of Language Varieties in Italy [18.464078978885812]
本研究は,イタリアの多様な言語品種から抽出された音声サンプルの地理的領域を自動的に同定することに焦点を当てる。
我々はまた、これらの多様だが密接に関連する品種間の関係に関する新たな洞察を明らかにすることを模索している。
論文 参考訳(メタデータ) (2024-06-22T14:19:51Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。