論文の概要: BRoverbs -- Measuring how much LLMs understand Portuguese proverbs
- arxiv url: http://arxiv.org/abs/2509.08960v1
- Date: Wed, 10 Sep 2025 19:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.125727
- Title: BRoverbs -- Measuring how much LLMs understand Portuguese proverbs
- Title(参考訳): BRoverbs -- LLMがポルトガルの証明をどの程度理解しているかを測定する
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos,
- Abstract要約: 大規模言語モデル(LLM)は、それらを適用する言語的・文化的文脈によって大きなパフォーマンス変化を示す。
この格差は、特定の地域設定でその能力を評価できる成熟した評価フレームワークの必要性を示唆している。
ポルトガル語の場合、既存の評価は限定的であり、しばしば言語的なニュアンスや文化的な参照を十分に捉えない翻訳されたデータセットに依存している。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit significant performance variations depending on the linguistic and cultural context in which they are applied. This disparity signals the necessity of mature evaluation frameworks that can assess their capabilities in specific regional settings. In the case of Portuguese, existing evaluations remain limited, often relying on translated datasets that may not fully capture linguistic nuances or cultural references. Meanwhile, native Portuguese-language datasets predominantly focus on structured national exams or sentiment analysis of social media interactions, leaving gaps in evaluating broader linguistic understanding. To address this limitation, we introduce BRoverbs, a dataset specifically designed to assess LLM performance through Brazilian proverbs. Proverbs serve as a rich linguistic resource, encapsulating cultural wisdom, figurative expressions, and complex syntactic structures that challenge the model comprehension of regional expressions. BRoverbs aims to provide a new evaluation tool for Portuguese-language LLMs, contributing to advancing regionally informed benchmarking. The benchmark is available at https://huggingface.co/datasets/Tropic-AI/BRoverbs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、それらを適用する言語的・文化的文脈によって大きなパフォーマンス変化を示す。
この格差は、特定の地域設定でその能力を評価できる成熟した評価フレームワークの必要性を示唆している。
ポルトガル語の場合、既存の評価は限定的であり、しばしば言語的なニュアンスや文化的な参照を十分に捉えない翻訳されたデータセットに依存している。
一方、ポルトガル語のデータセットは、主に構造化された国家試験やソーシャルメディアの相互作用の感情分析に焦点を合わせており、より広範な言語的理解を評価するのにギャップを残している。
この制限に対処するために、ブラジルの証明を通じてLLMの性能を評価するために特別に設計されたデータセットであるBRoverbsを紹介した。
プロバーブは豊かな言語資源として機能し、文化的な知恵、比喩表現、地域表現のモデル理解に挑戦する複雑な構文構造をカプセル化している。
BRoverbs はポルトガル語 LLM の新たな評価ツールを提供することを目標としている。
ベンチマークはhttps://huggingface.co/datasets/Tropic-AI/BRoverbsで公開されている。
関連論文リスト
- Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。