論文の概要: Alvorada-Bench: Can Language Models Solve Brazilian University Entrance Exams?
- arxiv url: http://arxiv.org/abs/2508.15835v1
- Date: Tue, 19 Aug 2025 03:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.103635
- Title: Alvorada-Bench: Can Language Models Solve Brazilian University Entrance Exams?
- Title(参考訳): Alvorada-Bench氏: 言語モデルはブラジル大学の入学試験を解決できますか?
- Authors: Henrique Godoy,
- Abstract要約: 本稿では,ブラジルの5つの大学入学試験から抽出した4,515件のテキストのみのベンチマークであるAlvorada-Benchについて述べる。
上位モデルは全体の94%を超えるが、数学やエンジニアリング指向のIMEおよびITA試験では精度が低下する。
コスト精度分析により、1Kトークンあたり2ドル以下で高い精度が得られることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are increasingly used in Brazil, but most evaluation remains English-centric. This paper presents Alvorada-Bench, a 4,515-question, text-only benchmark drawn from five Brazilian university entrance examinations. Evaluating twenty models under zero-shot, role-playing, and chain-of-thought prompting, producing 270,900 responses with structured self-reports of confidence, perceived difficulty, and Bloom level. The top models exceed 94% accuracy overall, but accuracy declines on Mathematics and on the engineering oriented IME and ITA exams, indicating persistent weaknesses in multi-step reasoning. Confidence is well calibrated and correlates with perceived difficulty, revealing that models can accurately assess their own certainty capabilities. A cost accuracy analysis shows that high accuracy is achievable at under $2 per 1K tokens. On ENEM 2024 the top model (O3) achieved perfect scores in Languages subject questions while even the weakest system (GPT-4.1 Nano) only underperforms humans in Mathematics. Through exams that distill decades of Brazilian educational priorities and assess millions of students yearly, Alvorada-Bench establishes whether language models can navigate the intersection of language, culture, and reasoning that defines academic readiness in Brazil.
- Abstract(参考訳): ブラジルでは言語モデルの使用が増えているが、ほとんどの評価は英語中心である。
本稿では,ブラジルの5つの大学入学試験から抽出した4,515件のテキストのみのベンチマークであるAlvorada-Benchについて述べる。
ゼロショット、ロールプレイング、チェーンオブ思想の下で20モデルを評価すると、270,900の回答が得られ、信頼度、難易度、ブルームレベルが構造化された。
上位モデルは全体の94%を超えるが、数学やエンジニアリング指向のIMEとITAの試験では精度が低下し、多段階の推論では弱点が持続している。
信頼性はよく校正され、認識される困難と相関し、モデルが自身の確実性を正確に評価できることを明らかにする。
コスト精度分析により、1Kトークンあたり2ドル以下で高い精度が得られることが示された。
ENEM 2024 では、トップモデル (O3) が、最も弱いシステム (GPT-4.1 Nano) でさえ、数学において人間を過小評価している。
何十年にもわたってブラジルの教育の優先順位を削り、何百万人もの学生を毎年評価する試験を通じて、アルバラダ・ベンチは、言語モデルがブラジルの学術的準備性を定義する言語、文化、推論の交差点をナビゲートできるかどうかを定めている。
関連論文リスト
- GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs [44.99833362998488]
ルーマニアの受験試験から採取した1,151件の多重選択質問の最初のオープンベンチマークであるGRILEを提示する。
GRILEは、7つの最先端多言語とルーマニア固有のLLMの相補的な2つの能力を探索することを可能にする。
論文 参考訳(メタデータ) (2025-08-19T21:27:06Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z) - Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination [35.88131356701857]
このデータセットは、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなる。
現在のオープンソースモデルとプロプライエタリモデルの選択は、一様ゼロショット実験環境で評価される。
論文 参考訳(メタデータ) (2024-09-19T13:13:07Z) - Linguini: A benchmark for language-agnostic linguistic reasoning [37.73108306825993]
本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。
このテストでは、75の(ほとんどが)極低リソース言語にわたる160の問題でグループ化された864の質問をカバーしている。
解析されたすべてのモデルが25%以下の精度でランク付けされているのに対して、オープンモデルとクローズドモデルの間には大きなギャップがある。
論文 参考訳(メタデータ) (2024-09-18T16:51:02Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。