論文の概要: MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks
- arxiv url: http://arxiv.org/abs/2507.03162v1
- Date: Thu, 03 Jul 2025 20:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.602731
- Title: MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks
- Title(参考訳): MateInfoUB: 競争的,多言語,マルチモーダルな教育課題におけるLLMのリアルタイムベンチマーク
- Authors: Dumitran Adrian Marius, Theodor-Pierre Moroianu, Buca Mihnea-Vicentiu,
- Abstract要約: 本研究では, バイリンガル (英語-ルーマニア語) マルチモーダル (テキストと画像) による複数質問のデータセットを提案する。
我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has transformed various domains, particularly computer science (CS) education. These models exhibit remarkable capabilities in code-related tasks and problem-solving, raising questions about their potential and limitations in advanced CS contexts. This study presents a novel bilingual (English-Romanian) multimodal (text and image) dataset of multiple-choice questions derived from a high-level computer science competition. A particularity of our dataset is that the problems are conceived such that some of them are easier solved using reasoning on paper, while for others writing code is more efficient. We systematically evaluate State of The Art LLMs on this dataset, analyzing their performance on theoretical programming tasks. Our findings reveal the strengths and limitations of current LLMs, including the influence of language choice (English vs. Romanian), providing insights into their applicability in CS education and competition settings. We also address critical ethical considerations surrounding educational integrity and the fairness of assessments in the context of LLM usage. These discussions aim to inform future educational practices and policies. To support further research, our dataset will be made publicly available in both English and Romanian. Additionally, we release an educational application tailored for Romanian students, enabling them to self-assess using the dataset in an interactive and practice-oriented environment.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は様々な領域、特にコンピュータサイエンス(CS)教育に変化をもたらした。
これらのモデルは、コード関連のタスクや問題解決において顕著な能力を示し、高度なCSコンテキストにおけるその可能性と限界に関する疑問を提起する。
本研究では,ハイレベルなコンピュータサイエンスコンペティションから得られた複数質問のバイリンガル(英語-ルーマニア語)マルチモーダル(テキストと画像)データセットを提案する。
我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
我々は,このデータセットを用いて,理論的プログラミングタスクにおけるその性能を解析し,その成果を体系的に評価する。
本研究は,言語選択の影響(英語対ルーマニア語)など,現在のLLMの長所と短所を明らかにし,CS教育と競争環境における適用性について考察した。
また,LLM利用の文脈における教育的整合性や評価の公平性に関する批判的倫理的考察についても論じる。
これらの議論は、将来の教育実践と政策を知らせることを目的としている。
さらなる研究を支援するため、私たちのデータセットは英語とルーマニア語の両方で公開されます。
さらに、ルーマニアの学生向けの教育アプリケーションをリリースし、対話的で実践指向の環境でデータセットを使用した自己評価を可能にした。
関連論文リスト
- VLM@school -- Evaluation of AI image understanding on German middle school knowledge [0.0]
本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。
このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。
我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
論文 参考訳(メタデータ) (2025-06-13T09:20:41Z) - Large Language Models in Computer Science Education: A Systematic Literature Review [7.240148550817106]
大規模言語モデル(LLM)は、幅広い自然言語処理タスク(NLP)において、ますます良くなっている。
最近、これらのモデルは、自然言語(NL)とプログラミング言語(PL)のギャップを埋めて、その能力をコーディングタスクに拡張した。
論文 参考訳(メタデータ) (2024-10-21T17:49:50Z) - Analyzing LLM Usage in an Advanced Computing Class in India [4.580708389528142]
本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。
インド大学の分散システムクラスから411名の学生を対象に,総合的な分析を行った。
論文 参考訳(メタデータ) (2024-04-06T12:06:56Z) - The Robots are Here: Navigating the Generative AI Revolution in
Computing Education [4.877774347152004]
人工知能(AI)の最近の進歩は、コンピューティングを根本的に再構築している。
大規模言語モデル(LLM)は、ソースコードと自然言語命令を効果的に生成、解釈できるようになった。
これらの能力は、教育者がこれらの課題にどう対処すべきかという緊急の疑問を引き起こしている。
論文 参考訳(メタデータ) (2023-10-01T12:54:37Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。