論文の概要: RoMath: A Mathematical Reasoning Benchmark in Romanian
- arxiv url: http://arxiv.org/abs/2409.11074v1
- Date: Tue, 17 Sep 2024 11:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 17:05:36.310568
- Title: RoMath: A Mathematical Reasoning Benchmark in Romanian
- Title(参考訳): RoMath: ルーマニアの数学的推論ベンチマーク
- Authors: Adrian Cosma, Ana-Maria Bucur, Emilian Radoi,
- Abstract要約: 本稿では、3つのデータセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。
独特な言語特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処する。
いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。
- 参考スコア(独自算出の注目度): 7.7559527224629266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mathematics has long been conveyed through natural language, primarily for human understanding. With the rise of mechanized mathematics and proof assistants, there is a growing need to understand informal mathematical text, yet most existing benchmarks focus solely on English, overlooking other languages. This paper introduces RoMath, a Romanian mathematical reasoning benchmark suite comprising three datasets: RoMath-Baccalaureate, RoMath-Competitions and RoMath-Synthetic, which cover a range of mathematical domains and difficulty levels, aiming to improve non-English language models and promote multilingual AI development. By focusing on Romanian, a low-resource language with unique linguistic features, RoMath addresses the limitations of Anglo-centric models and emphasizes the need for dedicated resources beyond simple automatic translation. We benchmark several open-weight language models, highlighting the importance of creating resources for underrepresented languages. We make the code and dataset available.
- Abstract(参考訳): 数学は、主に人間の理解のために、長い間自然言語を通して伝えられてきた。
機械化数学と証明アシスタントの台頭により、非公式な数学的テキストを理解する必要性が高まっているが、既存のベンチマークのほとんどは英語のみに焦点を絞っており、他の言語を見下ろしている。
本稿では,RoMath-Baccalaureate,RoMath-Competitions,RoMath-Syntheticの3つのデータセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。
独特な言語的特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処し、単純な自動翻訳以上の専門的なリソースの必要性を強調している。
いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。
コードとデータセットを利用可能にしています。
関連論文リスト
- MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。
textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。
また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文 参考訳(メタデータ) (2024-08-30T07:37:38Z) - Mathematical Entities: Corpora and Benchmarks [0.8766411351797883]
数学テキストに対する自然言語処理の研究は比較的少ない。
我々は、異なる文脈で数学の言語を研究するのに使用できる注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:11:00Z) - RoCode: A Dataset for Measuring Code Intelligence from Problem
Definitions in Romanian [10.035193313198207]
ルーマニア語で書かれた2,642問題からなる競合プログラミングデータセットであるRoCodeを紹介する。
我々は、英語以外の言語のためのコードモデルを開発する必要があると主張している。
論文 参考訳(メタデータ) (2024-02-20T18:32:47Z) - SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese [21.893992064105085]
SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
論文 参考訳(メタデータ) (2024-01-22T10:30:11Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Tree-Based Representation and Generation of Natural and Mathematical
Language [77.34726150561087]
科学コミュニケーションと教育シナリオにおける数学的言語は重要であるが、比較的研究されている。
数学言語に関する最近の研究は、スタンドアローンな数学的表現や、事前訓練された自然言語モデルにおける数学的推論に焦点をあてている。
テキストと数学を共同で表現・生成するために,既存の言語モデルに対する一連の修正を提案する。
論文 参考訳(メタデータ) (2023-02-15T22:38:34Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。