Fugu-MT 論文翻訳(概要): MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

論文の概要: MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

arxiv url: http://arxiv.org/abs/2507.03162v1
Date: Thu, 03 Jul 2025 20:43:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.602731
Title: MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks
Title（参考訳）: MateInfoUB: 競争的,多言語,マルチモーダルな教育課題におけるLLMのリアルタイムベンチマーク
Authors: Dumitran Adrian Marius, Theodor-Pierre Moroianu, Buca Mihnea-Vicentiu,
Abstract要約: 本研究では, バイリンガル (英語-ルーマニア語) マルチモーダル (テキストと画像) による複数質問のデータセットを提案する。我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid advancement of Large Language Models (LLMs) has transformed various domains, particularly computer science (CS) education. These models exhibit remarkable capabilities in code-related tasks and problem-solving, raising questions about their potential and limitations in advanced CS contexts. This study presents a novel bilingual (English-Romanian) multimodal (text and image) dataset of multiple-choice questions derived from a high-level computer science competition. A particularity of our dataset is that the problems are conceived such that some of them are easier solved using reasoning on paper, while for others writing code is more efficient. We systematically evaluate State of The Art LLMs on this dataset, analyzing their performance on theoretical programming tasks. Our findings reveal the strengths and limitations of current LLMs, including the influence of language choice (English vs. Romanian), providing insights into their applicability in CS education and competition settings. We also address critical ethical considerations surrounding educational integrity and the fairness of assessments in the context of LLM usage. These discussions aim to inform future educational practices and policies. To support further research, our dataset will be made publicly available in both English and Romanian. Additionally, we release an educational application tailored for Romanian students, enabling them to self-assess using the dataset in an interactive and practice-oriented environment.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は様々な領域、特にコンピュータサイエンス(CS)教育に変化をもたらした。これらのモデルは、コード関連のタスクや問題解決において顕著な能力を示し、高度なCSコンテキストにおけるその可能性と限界に関する疑問を提起する。本研究では,ハイレベルなコンピュータサイエンスコンペティションから得られた複数質問のバイリンガル(英語-ルーマニア語)マルチモーダル(テキストと画像)データセットを提案する。我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。我々は,このデータセットを用いて,理論的プログラミングタスクにおけるその性能を解析し,その成果を体系的に評価する。本研究は,言語選択の影響(英語対ルーマニア語)など,現在のLLMの長所と短所を明らかにし,CS教育と競争環境における適用性について考察した。また,LLM利用の文脈における教育的整合性や評価の公平性に関する批判的倫理的考察についても論じる。これらの議論は、将来の教育実践と政策を知らせることを目的としている。さらなる研究を支援するため、私たちのデータセットは英語とルーマニア語の両方で公開されます。さらに、ルーマニアの学生向けの教育アプリケーションをリリースし、対話的で実践指向の環境でデータセットを使用した自己評価を可能にした。

関連論文リスト

VLM@school -- Evaluation of AI image understanding on German middle school knowledge [0.0]
本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
論文参考訳（メタデータ） (2025-06-13T09:20:41Z)
From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation [0.0]
本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
論文参考訳（メタデータ） (2025-06-05T12:41:20Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Large Language Models in Computer Science Education: A Systematic Literature Review [7.240148550817106]
大規模言語モデル(LLM)は、幅広い自然言語処理タスク(NLP)において、ますます良くなっている。最近、これらのモデルは、自然言語(NL)とプログラミング言語(PL)のギャップを埋めて、その能力をコーディングタスクに拡張した。
論文参考訳（メタデータ） (2024-10-21T17:49:50Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
Analyzing LLM Usage in an Advanced Computing Class in India [4.580708389528142]
本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。インド大学の分散システムクラスから411名の学生を対象に,総合的な分析を行った。
論文参考訳（メタデータ） (2024-04-06T12:06:56Z)
CSEPrompts: A Benchmark of Introductory Computer Science Prompts [11.665831944836118]
AI、機械学習、NLPの最近の進歩は、新しい世代のLarge Language Models(LLM)の開発に繋がった。商業的応用により、この技術は一般大衆に利用できるようになったため、学術的および専門的な目的のために高品質なテキストを作成するためにLLMを使用することが可能である。学校や大学は、学生によるAI生成コンテンツの利用の増加に気づいており、この新しい技術とその潜在的な誤用の影響を調査している。
論文参考訳（メタデータ） (2024-04-03T07:55:57Z)
The Robots are Here: Navigating the Generative AI Revolution in Computing Education [4.877774347152004]
人工知能(AI)の最近の進歩は、コンピューティングを根本的に再構築している。大規模言語モデル(LLM)は、ソースコードと自然言語命令を効果的に生成、解釈できるようになった。これらの能力は、教育者がこれらの課題にどう対処すべきかという緊急の疑問を引き起こしている。
論文参考訳（メタデータ） (2023-10-01T12:54:37Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。