論文の概要: BacPrep: An Experimental Platform for Evaluating LLM-Based Bacalaureat Assessment
- arxiv url: http://arxiv.org/abs/2506.04989v1
- Date: Thu, 05 Jun 2025 13:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.711058
- Title: BacPrep: An Experimental Platform for Evaluating LLM-Based Bacalaureat Assessment
- Title(参考訳): BacPrep: LLMに基づくBacalaureat評価のための実験プラットフォーム
- Authors: Dumitran Adrian Marius, Dita Radu,
- Abstract要約: BacPrepは、自動評価のためのLarge Language Model(LLM)の可能性を探る実験的なオンラインプラットフォームである。
Googleの最新のモデルであるGemini 2.0 Flashを採用し、公式のグレーディングスキームによってガイドされ、実験的なフィードバックを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accessing quality preparation and feedback for the Romanian Bacalaureat exam is challenging, particularly for students in remote or underserved areas. This paper introduces BacPrep, an experimental online platform exploring Large Language Model (LLM) potential for automated assessment, aiming to offer a free, accessible resource. Using official exam questions from the last 5 years, BacPrep employs one of Google's newest models, Gemini 2.0 Flash (released Feb 2025), guided by official grading schemes, to provide experimental feedback. Currently operational, its primary research function is collecting student solutions and LLM outputs. This focused dataset is vital for planned expert validation to rigorously evaluate the feasibility and accuracy of this cutting-edge LLM in the specific Bacalaureat context before reliable deployment. We detail the design, data strategy, status, validation plan, and ethics.
- Abstract(参考訳): ルーマニアのバカラウレア試験の質の高い準備とフィードバックの入手は、特に遠隔地や保護区域の学生にとって困難である。
本稿では,Large Language Model (LLM) の可能性を探る実験的なオンラインプラットフォームであるBacPrepを紹介する。
BacPrepは、過去5年間の公式試験質問を使って、Googleの最新モデルの1つ、Gemini 2.0 Flash (2月2025日にリリースされた)を公式のグレーディングスキームでガイドし、実験的なフィードバックを提供している。
現在運用されている主な研究機能は、学生ソリューションとLCM出力の収集である。
このデータセットは、信頼性のあるデプロイメントの前に特定のBacalaureatコンテキストにおいて、この最先端LCMの有効性と精度を厳格に評価するために、計画された専門家の検証に不可欠である。
設計、データ戦略、ステータス、検証計画、倫理について詳述する。
関連論文リスト
- Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - LangBiTe: A Platform for Testing Bias in Large Language Models [1.9744907811058787]
大規模言語モデル(LLM)は、フォーラム、ウェブサイト、ソーシャルメディア、その他のインターネットソースから抽出された膨大な量のデータに基づいて訓練されている。
LangBiTeを使うことで、開発チームはテストシナリオを調整し、ユーザ定義の倫理的要件に従ってテストケースを自動生成し、実行することが可能になる。
LangBiteは、LLMのバイアス評価と、最初の倫理的要件と得られた洞察の間のエンドツーエンドトレーサビリティを提供する。
論文 参考訳(メタデータ) (2024-04-29T10:02:45Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Next-Step Hint Generation for Introductory Programming Using Large
Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。
本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文 参考訳(メタデータ) (2023-12-03T17:51:07Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。