論文の概要: BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses
- arxiv url: http://arxiv.org/abs/2506.01817v1
- Date: Mon, 02 Jun 2025 15:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.772845
- Title: BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses
- Title(参考訳): BD at BEA 2025 Shared Task:MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses
- Authors: Shadman Rohan, Ishita Sur Apan, Muhtasim Ibteda Shochcho, Md Fahim, Mohammad Ashfaq Ur Rahman, AKM Mahbubur Rahman, Amin Ahsan Ali,
- Abstract要約: 本稿では,AIを活用したチュータの教育能力評価に関するBEA 2025共有タスクについて紹介する。
我々のシステムは、BERTとXLNetの事前学習の利点を組み合わせたトランスフォーマーベースの言語モデルMPNet上に構築されている。
提案手法は両トラックにおいて, 一致マクロF1スコアが約0.7110, ミステイク同定が約0.5543, 公式テストセットが0.5543であった。
- 参考スコア(独自算出の注目度): 0.7475784495279183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Team BD's submission to the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors, under Track 1 (Mistake Identification) and Track 2 (Mistake Location). Both tracks involve three-class classification of tutor responses in educational dialogues - determining if a tutor correctly recognizes a student's mistake (Track 1) and whether the tutor pinpoints the mistake's location (Track 2). Our system is built on MPNet, a Transformer-based language model that combines BERT and XLNet's pre-training advantages. We fine-tuned MPNet on the task data using a class-weighted cross-entropy loss to handle class imbalance, and leveraged grouped cross-validation (10 folds) to maximize the use of limited data while avoiding dialogue overlap between training and validation. We then performed a hard-voting ensemble of the best models from each fold, which improves robustness and generalization by combining multiple classifiers. Our approach achieved strong results on both tracks, with exact-match macro-F1 scores of approximately 0.7110 for Mistake Identification and 0.5543 for Mistake Location on the official test set. We include comprehensive analysis of our system's performance, including confusion matrices and t-SNE visualizations to interpret classifier behavior, as well as a taxonomy of common errors with examples. We hope our ensemble-based approach and findings provide useful insights for designing reliable tutor response evaluation systems in educational dialogue settings.
- Abstract(参考訳): 本稿では, BEA 2025におけるBDチームによるAIによるチュータの教育能力評価の共有タスクについて, トラック1(誤認識)とトラック2(誤認識位置)について紹介する。
どちらのトラックも、教師が生徒の誤りを正しく認識しているかどうか(Track 1)と、教師が誤りの位置を特定しているかどうか(Track2)という、教育対話における教師の反応の3つのクラス分類を含んでいる。
我々のシステムは、BERTとXLNetの事前学習の利点を組み合わせたトランスフォーマーベースの言語モデルMPNet上に構築されている。
我々は,クラス重み付きクロスエントロピー損失を用いてタスクデータ上でMPNetを微調整し,クラス不均衡を処理する。
次に、各折り畳みモデルからベストモデルのハード投票アンサンブルを行い、複数の分類器を組み合わせることにより、堅牢性と一般化を改善する。
提案手法は両トラックにおいて, 一致マクロF1スコアが約0.7110, ミステイク同定が約0.5543, 公式テストセットが0.5543であった。
本稿では,混乱行列とt-SNE視覚化による分類器の動作の解釈を含むシステム性能の包括的分析と,一般的な誤りの分類を例に挙げる。
我々は,アンサンブルに基づくアプローチと知見が,教育対話環境における信頼性の高い学習者応答評価システムの設計に役立つことを願っている。
関連論文リスト
- MSA at BEA 2025 Shared Task: Disagreement-Aware Instruction Tuning for Multi-Dimensional Evaluation of LLMs as Math Tutors [0.0]
我々は,4つの教科領域にわたるAI教師の応答を評価するために,BEA 2025共有タスクを提出する。
このアプローチでは、統一的なトレーニングパイプラインを使用して、すべてのトラックにまたがる1つの命令チューニング言語モデルを微調整します。
本システムでは,全トラックにまたがって高い性能を達成し,第1位,第3位,第3位,ミスタケ識別とミスタケ位置情報の両方で第4位にランクインした。
論文 参考訳(メタデータ) (2025-05-24T06:32:02Z) - ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging [43.45477240307602]
本稿では,ZJUKLABチームによるSemEval-2025 Task 4: Unlearning Sensitive Content from Large Language Modelsを提案する。
本課題は,大規模言語モデルからセンシティブな知識を選択的に消去することを目的としている。
本稿では,2つの専門モデルとよりバランスのとれた未学習モデルを組み合わせることによって,モデルマージを活用するアンラーニングシステムを提案する。
論文 参考訳(メタデータ) (2025-03-27T02:03:25Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。