論文の概要: A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization
- arxiv url: http://arxiv.org/abs/2410.02165v1
- Date: Thu, 3 Oct 2024 03:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:15:54.244833
- Title: A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization
- Title(参考訳): ヒューマン・レベル・ガイドライン最適化によるLLMによる自動グラフ作成フレームワーク
- Authors: Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk, Jiliang Tang,
- Abstract要約: 学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。
SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
- 参考スコア(独自算出の注目度): 31.722907135361492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended short-answer questions (SAGs) have been widely recognized as a powerful tool for providing deeper insights into learners' responses in the context of learning analytics (LA). However, SAGs often present challenges in practice due to the high grading workload and concerns about inconsistent assessments. With recent advancements in natural language processing (NLP), automatic short-answer grading (ASAG) offers a promising solution to these challenges. Despite this, current ASAG algorithms are often limited in generalizability and tend to be tailored to specific questions. In this paper, we propose a unified multi-agent ASAG framework, GradeOpt, which leverages large language models (LLMs) as graders for SAGs. More importantly, GradeOpt incorporates two additional LLM-based agents - the reflector and the refiner - into the multi-agent system. This enables GradeOpt to automatically optimize the original grading guidelines by performing self-reflection on its errors. Through experiments on a challenging ASAG task, namely the grading of pedagogical content knowledge (PCK) and content knowledge (CK) questions, GradeOpt demonstrates superior performance in grading accuracy and behavior alignment with human graders compared to representative baselines. Finally, comprehensive ablation studies confirm the effectiveness of the individual components designed in GradeOpt.
- Abstract(参考訳): 学習分析(LA)の文脈において,学習者の反応をより深く把握するための強力なツールとして,オープンエンド短解答(SAG)が広く認識されている。
しかし、SAGは高い作業負荷と一貫性のない評価に対する懸念から、実際に課題を提起することが多い。
自然言語処理(NLP)の最近の進歩により、自動短問合せグレーディング(ASAG)はこれらの課題に対して有望な解決策を提供する。
それにもかかわらず、現在のASAGアルゴリズムは、しばしば一般化性に制限され、特定の質問に合わせる傾向にある。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークである GradeOpt を提案する。
さらに重要なことは、GradeOptは2つのLLMベースのエージェント(リフレクタとリフレクタ)をマルチエージェントシステムに組み込んでいる。
これにより、GradeOptはエラーに対して自己回帰を行うことで、オリジナルのグレーティングガイドラインを自動的に最適化することができる。
教育内容知識 (PCK) とコンテンツ知識 (CK) の課題の段階化を課題とするASAGタスクの実験を通じて, 代表的ベースラインと比較して, 評価精度と行動アライメントにおいて, 優れた性能を示す。
最後に、包括的アブレーション研究により、グレードオプトで設計された個々のコンポーネントの有効性が確認された。
関連論文リスト
- Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - SteLLA: A Structured Grading System Using LLMs with RAG [2.630522349105014]
本稿では,SteLLA (Structured Grading System Using LLMs with RAG) について述べる。
受験生の回答を含む実世界のデータセットを大学レベルの生物学コースから収集した。
実験により,本システムでは,人間の学級との相当な合意を達成でき,また,その問題で検討されたすべての知識点について,ブレークダウングレードとフィードバックを提供することができた。
論文 参考訳(メタデータ) (2025-01-15T19:24:48Z) - ASAG2024: A Combined Benchmark for Short Answer Grading [0.10826342457160269]
短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。
様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。
我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
論文 参考訳(メタデータ) (2024-09-27T09:56:02Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。
本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-30T05:08:15Z) - Automated Long Answer Grading with RiceChem Dataset [19.34390869143846]
教育自然言語処理分野における新たな研究分野について紹介する:ALAG(Automated Long Answer Grading)
ALAGは、事実に基づく長い答えの複雑さと多面的な性質のために、ユニークな課題を提示している。
本稿では, 自然言語推論モデルを用いて, ALAG に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-22T16:28:09Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。