論文の概要: ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs
- arxiv url: http://arxiv.org/abs/2603.26516v1
- Date: Fri, 27 Mar 2026 15:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.568761
- Title: ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs
- Title(参考訳): ALBA: ジェネレーティブLLMにおける言語と言語次元の評価のためのヨーロッパのポルトガル語ベンチマーク
- Authors: Inês Vieira, Inês Calvo, Iago Paulo, James Furtado, Rafael Ferreira, Diogo Tavares, Diogo Glória-Silva, David Semedo, João Magalhães,
- Abstract要約: ヨーロッパポルトガル語(pt-PT)における言語関連タスクの習熟度を評価するためのベンチマークであるALBAを紹介する。
ALBAは言語の専門家によって手動で構築され、pt-PT生成言語のスケーラブルな評価のためのLLM-as-a-judgeフレームワークと組み合わせられる。
さまざまなモデルのモデルに対する実験は、言語的側面にわたるパフォーマンスの変動を明らかにし、包括的な多彩なベンチマークの必要性を強調している。
- 参考スコア(独自算出の注目度): 6.876400358750551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) expand across multilingual domains, evaluating their performance in under-represented languages becomes increasingly important. European Portuguese (pt-PT) is particularly affected, as existing training data and benchmarks are mainly in Brazilian Portuguese (pt-BR). To address this, we introduce ALBA, a linguistically grounded benchmark designed from the ground up to assess LLM proficiency in linguistic-related tasks in pt-PT across eight linguistic dimensions, including Language Variety, Culture-bound Semantics, Discourse Analysis, Word Plays, Syntax, Morphology, Lexicology, and Phonetics and Phonology. ALBA is manually constructed by language experts and paired with an LLM-as-a-judge framework for scalable evaluation of pt-PT generated language. Experiments on a diverse set of models reveal performance variability across linguistic dimensions, highlighting the need for comprehensive, variety-sensitive benchmarks that support further development of tools in pt-PT.
- Abstract(参考訳): 大規模言語モデル(LLM)が多言語ドメインにまたがって拡張されるにつれて、表現不足言語における言語の性能を評価することがますます重要になる。
既存のトレーニングデータとベンチマークは主にブラジルポルトガル語(pt-BR)にあるため、欧州ポルトガル語(pt-PT)は特に影響を受ける。
これを解決するために,言語多様性,文化境界意味論,談話分析,語遊び,構文,形態学,語彙学,音韻学,音韻学を含む8つの言語領域にわたる,pt-PTにおける言語関連タスクにおけるLLMの習熟度を評価するために,言語基盤のベンチマークであるALBAを導入する。
ALBAは言語の専門家によって手動で構築され、pt-PT生成言語のスケーラブルな評価のためのLLM-as-a-judgeフレームワークと組み合わせられる。
さまざまなモデルのモデルに対する実験は、言語的側面にわたるパフォーマンスの変動を明らかにし、pt-PTにおけるツールのさらなる開発をサポートする包括的な多彩なベンチマークの必要性を強調している。
関連論文リスト
- BRoverbs -- Measuring how much LLMs understand Portuguese proverbs [3.364554138758565]
大規模言語モデル(LLM)は、それらを適用する言語的・文化的文脈によって大きなパフォーマンス変化を示す。
この格差は、特定の地域設定でその能力を評価できる成熟した評価フレームワークの必要性を示唆している。
ポルトガル語の場合、既存の評価は限定的であり、しばしば言語的なニュアンスや文化的な参照を十分に捉えない翻訳されたデータセットに依存している。
論文 参考訳(メタデータ) (2025-09-10T19:47:46Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Benchmarking Linguistic Diversity of Large Language Models [14.824871604671467]
本稿では,言語モデルによる人間の言語的豊かさの保全を検討することの重要性を強調する。
言語多様性の観点からLLMを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-13T16:46:03Z) - LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。
大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。
提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文 参考訳(メタデータ) (2024-09-20T20:53:22Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。