論文の概要: MSA at BEA 2025 Shared Task: Disagreement-Aware Instruction Tuning for Multi-Dimensional Evaluation of LLMs as Math Tutors
- arxiv url: http://arxiv.org/abs/2505.18549v1
- Date: Sat, 24 May 2025 06:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.50104
- Title: MSA at BEA 2025 Shared Task: Disagreement-Aware Instruction Tuning for Multi-Dimensional Evaluation of LLMs as Math Tutors
- Title(参考訳): MSA at BEA 2025 Shared Task: Disagreement-Aware Instruction Tuning for Multi-dimensional Evaluation of LLMs as Math Tutors
- Authors: Baraa Hikal, Mohamed Basem, Islam Oshallah, Ali Hamdi,
- Abstract要約: 我々は,4つの教科領域にわたるAI教師の応答を評価するために,BEA 2025共有タスクを提出する。
このアプローチでは、統一的なトレーニングパイプラインを使用して、すべてのトラックにまたがる1つの命令チューニング言語モデルを微調整します。
本システムでは,全トラックにまたがって高い性能を達成し,第1位,第3位,第3位,ミスタケ識別とミスタケ位置情報の両方で第4位にランクインした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MSA-MathEval, our submission to the BEA 2025 Shared Task on evaluating AI tutor responses across four instructional dimensions: Mistake Identification, Mistake Location, Providing Guidance, and Actionability. Our approach uses a unified training pipeline to fine-tune a single instruction-tuned language model across all tracks, without any task-specific architectural changes. To improve prediction reliability, we introduce a disagreement-aware ensemble inference strategy that enhances coverage of minority labels. Our system achieves strong performance across all tracks, ranking 1st in Providing Guidance, 3rd in Actionability, and 4th in both Mistake Identification and Mistake Location. These results demonstrate the effectiveness of scalable instruction tuning and disagreement-driven modeling for robust, multi-dimensional evaluation of LLMs as educational tutors.
- Abstract(参考訳): MSA-MathEvalは、BEA 2025の共有タスクとして、ミステイク識別、ミステイク位置、ガイダンスの提供、アクションビリティの4つの教育分野におけるAIチューターの応答を評価する。
私たちのアプローチでは、タスク固有のアーキテクチャ変更なしに、統一的なトレーニングパイプラインを使用して、すべてのトラックにまたがる1つの命令チューニング言語モデルを微調整します。
予測信頼性を向上させるために,少数レーベルのカバレッジを高める不一致を意識したアンサンブル推論戦略を導入する。
本システムでは,全トラックにまたがって高い性能を達成し,第1位,第3位,第3位,ミスタケ識別とミスタケ位置情報の両方で第4位にランクインした。
これらの結果は、LLMを教育用チューターとして頑健で多次元的な評価のためのスケーラブルな指導チューニングと不一致駆動型モデリングの有効性を示す。
関連論文リスト
- Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging [43.45477240307602]
本稿では,ZJUKLABチームによるSemEval-2025 Task 4: Unlearning Sensitive Content from Large Language Modelsを提案する。
本課題は,大規模言語モデルからセンシティブな知識を選択的に消去することを目的としている。
本稿では,2つの専門モデルとよりバランスのとれた未学習モデルを組み合わせることによって,モデルマージを活用するアンラーニングシステムを提案する。
論文 参考訳(メタデータ) (2025-03-27T02:03:25Z) - IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。