論文の概要: NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors
- arxiv url: http://arxiv.org/abs/2506.10627v1
- Date: Thu, 12 Jun 2025 12:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.718303
- Title: NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors
- Title(参考訳): NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors
- Authors: Numaan Naeem, Sarfraz Ahmad, Momina Ahsan, Hasan Iqbal,
- Abstract要約: 本稿では, BEA 2025共有タスクにおけるトラック1のミステイク同定システムについて述べる。
この課題は、教師の反応が学生の推論における誤りを正しく識別するかどうかを評価することである。
我々のシステムは意味的に類似した例を検索し、構造化されたプロンプトを構築し、生成可能な予測をスキーマ誘導解析する。
- 参考スコア(独自算出の注目度): 0.12499537119440242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our system for Track 1: Mistake Identification in the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors. The task involves evaluating whether a tutor's response correctly identifies a mistake in a student's mathematical reasoning. We explore four approaches: (1) an ensemble of machine learning models over pooled token embeddings from multiple pretrained language models (LMs); (2) a frozen sentence-transformer using [CLS] embeddings with an MLP classifier; (3) a history-aware model with multi-head attention between token-level history and response embeddings; and (4) a retrieval-augmented few-shot prompting system with a large language model (LLM) i.e. GPT 4o. Our final system retrieves semantically similar examples, constructs structured prompts, and uses schema-guided output parsing to produce interpretable predictions. It outperforms all baselines, demonstrating the effectiveness of combining example-driven prompting with LLM reasoning for pedagogical feedback assessment. Our code is available at https://github.com/NaumanNaeem/BEA_2025.
- Abstract(参考訳): 本稿では,AIを用いたチュータの教育能力評価におけるBEA 2025共有タスクにおけるトラック1:ミステイク同定システムについて述べる。
この課題は、教師の反応が学生の数学的推論における誤りを正しく識別するかどうかを評価することである。
我々は,(1)複数の事前訓練された言語モデル(LM)からのトークン埋め込みに対する機械学習モデルのアンサンブル,(2)MLP分類器による[CLS]埋め込みを用いた凍結文変換,(3)トークンレベルの履歴と応答埋め込みを多面的に注目する履歴認識モデル,(4)大規模言語モデル(LLM)を備えた検索強化数ショットプロンプトシステム(GPT 4o)の4つのアプローチを探索する。
我々の最終システムは意味的に類似した例を検索し、構造化されたプロンプトを構築し、スキーマ誘導された出力解析を用いて解釈可能な予測を生成する。
全ベースラインを上回り、例駆動のプロンプトとLLM推論を組み合わせることで、教育的フィードバックアセスメントの有効性を示す。
私たちのコードはhttps://github.com/NaumanNaeem/BEA_2025で利用可能です。
関連論文リスト
- BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses [0.7475784495279183]
本稿では,AIを活用したチュータの教育能力評価に関するBEA 2025共有タスクについて紹介する。
我々のシステムは、BERTとXLNetの事前学習の利点を組み合わせたトランスフォーマーベースの言語モデルMPNet上に構築されている。
提案手法は両トラックにおいて, 一致マクロF1スコアが約0.7110, ミステイク同定が約0.5543, 公式テストセットが0.5543であった。
論文 参考訳(メタデータ) (2025-06-02T15:57:49Z) - MSA at BEA 2025 Shared Task: Disagreement-Aware Instruction Tuning for Multi-Dimensional Evaluation of LLMs as Math Tutors [0.0]
我々は,4つの教科領域にわたるAI教師の応答を評価するために,BEA 2025共有タスクを提出する。
このアプローチでは、統一的なトレーニングパイプラインを使用して、すべてのトラックにまたがる1つの命令チューニング言語モデルを微調整します。
本システムでは,全トラックにまたがって高い性能を達成し,第1位,第3位,第3位,ミスタケ識別とミスタケ位置情報の両方で第4位にランクインした。
論文 参考訳(メタデータ) (2025-05-24T06:32:02Z) - Demo-Craft: Using In-Context Learning to Improve Code Generation in Large Language Models [0.0]
テキスト内学習と実演選択を活用してコード生成を向上させるDemoCraftを提案する。
潜在概念学習は、タスク固有の知識をキャプチャするトレーニング可能な埋め込みである、追加の概念トークンを導入している。
実験の結果,提案方式はpass@kの2倍の精度向上を実現していることがわかった。
我々の実証研究は、我々のシステムがこれらの指標の約3倍の改善を達成したことを示唆している。
論文 参考訳(メタデータ) (2024-10-30T19:45:50Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。