論文の概要: Lost in Variation? Evaluating NLI Performance in Basque and Spanish Geographical Variants
- arxiv url: http://arxiv.org/abs/2506.15239v1
- Date: Wed, 18 Jun 2025 08:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.586699
- Title: Lost in Variation? Evaluating NLI Performance in Basque and Spanish Geographical Variants
- Title(参考訳): 変異における損失 : バスクとスペインの地理的変数におけるNLI性能の評価
- Authors: Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri,
- Abstract要約: バスク語とスペイン語の変種を理解するための現在の言語技術の能力を評価する。
我々は、自然言語推論(NLI)をピボットタスクとして使用し、手動で計算した新しい並列データセットを導入します。
- 参考スコア(独自算出の注目度): 7.160574787275442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we evaluate the capacity of current language technologies to understand Basque and Spanish language varieties. We use Natural Language Inference (NLI) as a pivot task and introduce a novel, manually-curated parallel dataset in Basque and Spanish, along with their respective variants. Our empirical analysis of crosslingual and in-context learning experiments using encoder-only and decoder-based Large Language Models (LLMs) shows a performance drop when handling linguistic variation, especially in Basque. Error analysis suggests that this decline is not due to lexical overlap, but rather to the linguistic variation itself. Further ablation experiments indicate that encoder-only models particularly struggle with Western Basque, which aligns with linguistic theory that identifies peripheral dialects (e.g., Western) as more distant from the standard. All data and code are publicly available.
- Abstract(参考訳): 本稿では,バスク語とスペイン語の変種を理解するために,現在の言語技術の能力を評価する。
NLI(Natural Language Inference)をピボットタスクとして使用し、バスク語とスペイン語で手作業で計算された新しい並列データセットと、それぞれの変種を紹介します。
エンコーダのみおよびデコーダをベースとした大規模言語モデル(LLM)を用いたクロスランガルおよびインコンテクスト学習実験の実証分析は,特にバスク語における言語的変動を扱う際の性能低下を示す。
誤り分析は、この減少は語彙的重複によるものではなく、言語的変化そのものによるものであることを示唆している。
さらなるアブレーション実験により、エンコーダのみのモデルは特に、周辺方言(例えば、西方方言)を標準からより離れたものと識別する言語理論と一致する西バスク語と競合することが示された。
すべてのデータとコードは公開されています。
関連論文リスト
- Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - We're Calling an Intervention: Exploring Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、ユーザ生成テキストの中核的な特徴と、既存の言語モデルのバイアスとの相互作用を近似する介入を設計する。
非標準テキスト変種への言語モデル適応における介入の適用により、そのような適応がいつ成功したかについて重要な洞察を得る。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Evaluating Shortest Edit Script Methods for Contextual Lemmatization [6.0158981171030685]
現代の文脈補綴器は、単語の形式を補題に変換するために、しばしば自動的に誘導された短い編集スクリプト(SES)に依存している。
これまでの研究では,SESが最終補修性能にどのような影響を及ぼすかは調査されていない。
ケーシング操作と編集操作を別々に計算することは、全体として有益であるが、高機能な形態を持つ言語には、より明確に有用であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:28:24Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。