論文の概要: Confusion-Aware Rubric Optimization for LLM-based Automated Grading
- arxiv url: http://arxiv.org/abs/2603.00451v1
- Date: Sat, 28 Feb 2026 04:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.197374
- Title: Confusion-Aware Rubric Optimization for LLM-based Automated Grading
- Title(参考訳): LLMを用いた自動格子法における融合型潤滑剤の最適化
- Authors: Yucheng Chu, Hang Li, Kaiqi Yang, Yasemin Copur-Gencturk, Joseph Krajcik, Namsoo Shin, Jiliang Tang,
- Abstract要約: 本稿では,精度と計算効率を向上させる新しいフレームワークであるConfusion-Aware Optimization (CARO)を紹介する。
CAROはモノリシックなエラー信号を異なるモードに分解し、明確な診断と特定の誤分類パターンの修復を可能にする。
以上の結果から,複合エラー集約を外科的,モード特異的な修復に置き換えることにより,自動評価のスケーラビリティと精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 31.353360036776976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and unambiguous guidelines are critical for large language model (LLM) based graders, yet manually crafting these prompts is often sub-optimal as LLMs can misinterpret expert guidelines or lack necessary domain specificity. Consequently, the field has moved toward automated prompt optimization to refine grading guidelines without the burden of manual trial and error. However, existing frameworks typically aggregate independent and unstructured error samples into a single update step, resulting in "rule dilution" where conflicting constraints weaken the model's grading logic. To address these limitations, we introduce Confusion-Aware Rubric Optimization (CARO), a novel framework that enhances accuracy and computational efficiency by structurally separating error signals. CARO leverages the confusion matrix to decompose monolithic error signals into distinct modes, allowing for the diagnosis and repair of specific misclassification patterns individually. By synthesizing targeted "fixing patches" for dominant error modes and employing a diversity-aware selection mechanism, the framework prevents guidance conflict and eliminates the need for resource-heavy nested refinement loops. Empirical evaluations on teacher education and STEM datasets demonstrate that CARO significantly outperforms existing SOTA methods. These results suggest that replacing mixed-error aggregation with surgical, mode-specific repair yields robust improvements in automated assessment scalability and precision.
- Abstract(参考訳): しかし、これらのプロンプトを手作業で作成することは、LLMが専門家のガイドラインを誤解釈したり、必要なドメイン特異性を欠いているため、しばしば準最適である。
その結果,手動による試行錯誤の負担を伴わずに,段階的ガイドラインを洗練するための自動的なプロンプト最適化へ移行した。
しかし、既存のフレームワークは通常、独立したエラーサンプルと非構造化エラーサンプルを単一の更新ステップに集約する。
これらの制約に対処するため,我々は,誤り信号の構造的分離により精度と計算効率を向上させる新しいフレームワークであるConfusion-Aware Rubric Optimization (CARO)を紹介した。
CAROは混乱行列を利用してモノリシックなエラー信号を異なるモードに分解し、個別に特定の誤分類パターンの診断と修復を可能にする。
主要なエラーモードに対する"修正パッチ"を合成し、多様性を意識した選択メカニズムを使用することで、ガイダンスの競合を防止し、リソースが重いネストされたリファインメントループを不要にする。
教員教育とSTEMデータセットに関する実証的な評価は、CAROが既存のSOTA法を大幅に上回っていることを示している。
これらの結果から,複合エラー集約を外科的,モード特異的な修復に置き換えることで,自動評価のスケーラビリティと精度が向上することが示唆された。
関連論文リスト
- MIRROR: A Multi-Agent Framework with Iterative Adaptive Revision and Hierarchical Retrieval for Optimization Modeling in Operations Research [15.28095645151852]
MIRRORは、操作研究のための微調整のないエンドツーエンドのマルチエージェントフレームワークである。
自然言語の最適化問題を数学的モデルや解法コードに変換する。
実験により、MIRRORは標準的なOperations Researchベンチマークの既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-03T09:46:56Z) - Automated Optimization Modeling via a Localizable Error-Driven Perspective [20.591721861026414]
本稿では,自動最適化のための新しい誤り駆動学習フレームワークを提案する。
MINDはデータ合成からポストトレーニングまで、モデルトレーニングフレームワーク全体をカスタマイズした。
MINDは、最先端の自動化最適化モデリングアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T09:59:01Z) - Adaptive Learning Guided by Bias-Noise-Alignment Diagnostics [0.7519872646378835]
本稿では,誤り適応進化を明示的にモデル化する診断駆動学習フレームワークを提案する。
これらの診断は、損失または時間差(TD)誤差軌跡の軽量統計からオンラインで計算される。
論文 参考訳(メタデータ) (2025-12-30T19:57:52Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - LVLMs as inspectors: an agentic framework for category-level structural defect annotation [3.2445985501669434]
エージェントベースの新しいエージェントアノテーションフレームワークであるDefect Pattern Taggerが導入された。
これはLVLM(Large Vision-Language Models)とセマンティックパターンマッチングモジュールと反復的な自己探索機構を統合している。
生の視覚データを高品質でセマンティックにラベル付けされた欠陥データセットに変換する。
論文 参考訳(メタデータ) (2025-10-01T07:31:42Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。