論文の概要: Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination
- arxiv url: http://arxiv.org/abs/2409.12746v1
- Date: Thu, 19 Sep 2024 13:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:34:43.242245
- Title: Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination
- Title(参考訳): 大学入学試験における一般知識に基づく言語モデルのバイリンガル評価
- Authors: Eva Sánchez Salido, Roser Morante, Julio Gonzalo, Guillermo Marco, Jorge Carrillo-de-Albornoz, Laura Plaza, Enrique Amigó, Andrés Fernández, Alejandro Benito-Santos, Adrián Ghajari Espinosa, Victor Fresno,
- Abstract要約: このデータセットは、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなる。
現在のオープンソースモデルとプロプライエタリモデルの選択は、一様ゼロショット実験環境で評価される。
- 参考スコア(独自算出の注目度): 35.88131356701857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article we present UNED-ACCESS 2024, a bilingual dataset that consists of 1003 multiple-choice questions of university entrance level exams in Spanish and English. Questions are originally formulated in Spanish and translated manually into English, and have not ever been publicly released. A selection of current open-source and proprietary models are evaluated in a uniform zero-shot experimental setting both on the UNED-ACCESS 2024 dataset and on an equivalent subset of MMLU questions. Results show that (i) reasoning questions are challenging for models, (ii) smaller models perform worse than larger models and degrade faster in Spanish than in English and (iii) the performance gap between languages is negligible for the best models and grows up to 37% for smaller models. Model ranking on UNED-ACCESS 2024 is almost identical in English and Spanish, and has also a high correlation (0.98 Pearson) with ranking on MMLU, suggesting that a small dataset is sufficiently diverse and representative to measure performance by discipline.
- Abstract(参考訳): 本稿では、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなるバイリンガルデータセットUNED-ACCESS 2024を紹介する。
質問は元々スペイン語で定式化され、手動で英語に翻訳され、公開されていない。
現在のオープンソースモデルとプロプライエタリモデルの選択は、UNED-ACCESS 2024データセットとMMLU質問の等価サブセットの両方で一様ゼロショット実験環境で評価される。
その結果は
(i)モデルにとって理性的な疑問は困難である。
(ii)より小型のモデルはより大きなモデルよりも性能が悪く、スペイン語の方が英語や英語より早く劣化する
3) 言語間のパフォーマンスギャップは、最高のモデルでは無視され、より小さなモデルでは最大37%まで増大します。
UNED-ACCESS 2024のモデルランキングは、英語とスペイン語でほぼ同一であり、MMLUのモデルランキングと高い相関(0.98ピアソン)を持ち、小さなデータセットが十分に多様であり、規律によってパフォーマンスを測定するために代表的であることを示唆している。
関連論文リスト
- Linguini: A benchmark for language-agnostic linguistic reasoning [37.73108306825993]
本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。
このテストでは、75の(ほとんどが)極低リソース言語にわたる160の問題でグループ化された864の質問をカバーしている。
解析されたすべてのモデルが25%以下の精度でランク付けされているのに対して、オープンモデルとクローズドモデルの間には大きなギャップがある。
論文 参考訳(メタデータ) (2024-09-18T16:51:02Z) - HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - SurreyAI 2023 Submission for the Quality Estimation Shared Task [17.122657128702276]
本稿では,SurreyAIチームがWMT23のSentence-Level Direct Assessmentタスクに導入したアプローチについて述べる。
提案手法はTransQuestフレームワーク上に構築され、様々なオートエンコーダで事前訓練された言語モデルを探索する。
評価はスピアマンとピアソンの相関係数を用いて, 機械予測品質スコアと人的判断との関係を評価する。
論文 参考訳(メタデータ) (2023-12-01T12:01:04Z) - Assessing Translation capabilities of Large Language Models involving
English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。
その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文 参考訳(メタデータ) (2023-11-15T18:58:19Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。