論文の概要: BRoverbs -- Measuring how much LLMs understand Portuguese proverbs
- arxiv url: http://arxiv.org/abs/2509.08960v1
- Date: Wed, 10 Sep 2025 19:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.125727
- Title: BRoverbs -- Measuring how much LLMs understand Portuguese proverbs
- Title(参考訳): BRoverbs -- LLMがポルトガルの証明をどの程度理解しているかを測定する
- Authors: Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos,
- Abstract要約: 大規模言語モデル(LLM)は、それらを適用する言語的・文化的文脈によって大きなパフォーマンス変化を示す。
この格差は、特定の地域設定でその能力を評価できる成熟した評価フレームワークの必要性を示唆している。
ポルトガル語の場合、既存の評価は限定的であり、しばしば言語的なニュアンスや文化的な参照を十分に捉えない翻訳されたデータセットに依存している。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit significant performance variations depending on the linguistic and cultural context in which they are applied. This disparity signals the necessity of mature evaluation frameworks that can assess their capabilities in specific regional settings. In the case of Portuguese, existing evaluations remain limited, often relying on translated datasets that may not fully capture linguistic nuances or cultural references. Meanwhile, native Portuguese-language datasets predominantly focus on structured national exams or sentiment analysis of social media interactions, leaving gaps in evaluating broader linguistic understanding. To address this limitation, we introduce BRoverbs, a dataset specifically designed to assess LLM performance through Brazilian proverbs. Proverbs serve as a rich linguistic resource, encapsulating cultural wisdom, figurative expressions, and complex syntactic structures that challenge the model comprehension of regional expressions. BRoverbs aims to provide a new evaluation tool for Portuguese-language LLMs, contributing to advancing regionally informed benchmarking. The benchmark is available at https://huggingface.co/datasets/Tropic-AI/BRoverbs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、それらを適用する言語的・文化的文脈によって大きなパフォーマンス変化を示す。
この格差は、特定の地域設定でその能力を評価できる成熟した評価フレームワークの必要性を示唆している。
ポルトガル語の場合、既存の評価は限定的であり、しばしば言語的なニュアンスや文化的な参照を十分に捉えない翻訳されたデータセットに依存している。
一方、ポルトガル語のデータセットは、主に構造化された国家試験やソーシャルメディアの相互作用の感情分析に焦点を合わせており、より広範な言語的理解を評価するのにギャップを残している。
この制限に対処するために、ブラジルの証明を通じてLLMの性能を評価するために特別に設計されたデータセットであるBRoverbsを紹介した。
プロバーブは豊かな言語資源として機能し、文化的な知恵、比喩表現、地域表現のモデル理解に挑戦する複雑な構文構造をカプセル化している。
BRoverbs はポルトガル語 LLM の新たな評価ツールを提供することを目標としている。
ベンチマークはhttps://huggingface.co/datasets/Tropic-AI/BRoverbsで公開されている。
関連論文リスト
- LLMs vs. Traditional Sentiment Tools in Psychology: An Evaluation on Belgian-Dutch Narratives [0.0]
大規模言語モデル(LLM)はコンテキスト理解の強化を約束する。
オランダ固有の3つのLLMをLIWCとPatternと比較した。
驚くべきことに、建築の進歩にもかかわらず、オランダ製のLLMは従来の手法に比べて性能が劣っていた。
論文 参考訳(メタデータ) (2025-11-10T21:26:13Z) - Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding [6.0158981171030685]
本稿では,複数のデータセット,タスク,プロンプト構成にまたがるメタファ解釈において,LLM(Large Language Models)の能力を包括的に評価する。
推論とメタファアノテーションを備えた多種多様な公開データセットを用いて、広範な実験を行うことにより、これらの制限に対処する。
その結果,LLMの性能は比喩的内容よりも語彙的重複や文長などの特徴に影響されていることが示唆された。
論文 参考訳(メタデータ) (2025-07-21T08:09:11Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。