論文の概要: ISD-Agent-Bench: A Comprehensive Benchmark for Evaluating LLM-based Instructional Design Agents
- arxiv url: http://arxiv.org/abs/2602.10620v1
- Date: Wed, 11 Feb 2026 08:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.566339
- Title: ISD-Agent-Bench: A Comprehensive Benchmark for Evaluating LLM-based Instructional Design Agents
- Title(参考訳): ISD-Agent-Bench: LLMに基づく教育設計エージェント評価のための総合ベンチマーク
- Authors: YoungHoon Jeon, Suwan Kim, Haein Son, Sookbun Lee, Yeil Jeong, Unggi Lee,
- Abstract要約: ISD-Agent-Benchは、Context Matrixフレームワークを介して生成される25,795のシナリオからなる包括的なベンチマークである。
我々は既存のIDDエージェントと、ADDIE、Dick & Carey、Rapid Prototyping ISDなどの古典的なIDD理論に基づく新しいエージェントを比較した。
1,017のテストシナリオの実験では、古典的なIDDフレームワークを現代的なReActスタイルの推論と統合することで、最高のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.6181816879349377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM) agents have shown promising potential in automating Instructional Systems Design (ISD), a systematic approach to developing educational programs. However, evaluating these agents remains challenging due to the lack of standardized benchmarks and the risk of LLM-as-judge bias. We present ISD-Agent-Bench, a comprehensive benchmark comprising 25,795 scenarios generated via a Context Matrix framework that combines 51 contextual variables across 5 categories with 33 ISD sub-steps derived from the ADDIE model. To ensure evaluation reliability, we employ a multi-judge protocol using diverse LLMs from different providers, achieving high inter-judge reliability. We compare existing ISD agents with novel agents grounded in classical ISD theories such as ADDIE, Dick \& Carey, and Rapid Prototyping ISD. Experiments on 1,017 test scenarios demonstrate that integrating classical ISD frameworks with modern ReAct-style reasoning achieves the highest performance, outperforming both pure theory-based agents and technique-only approaches. Further analysis reveals that theoretical quality strongly correlates with benchmark performance, with theory-based agents showing significant advantages in problem-centered design and objective-assessment alignment. Our work provides a foundation for systematic LLM-based ISD research.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、教育プログラムを開発するための体系的なアプローチであるISD(Instructional Systems Design)の自動化に有望な可能性を示している。
しかし、標準ベンチマークの欠如とLCM-as-judgeバイアスのリスクのため、これらのエージェントの評価は依然として困難である。
ISD-Agent-Benchは,5つのカテゴリにわたる51のコンテキスト変数とADDIEモデルから派生した33のIDDサブステップを組み合わせたコンテキストマトリックスフレームワークによって生成される25,795のシナリオからなる総合的なベンチマークである。
評価信頼性を確保するため,異なるプロバイダからの多様なLCMを用いてマルチジャッジプロトコルを用い,高いジャッジ間信頼性を実現する。
我々は既存のIDDエージェントと、ADDIE、Dick \& Carey、Rapid Prototyping ISDなどの古典的なIDD理論に基づく新しいエージェントを比較した。
1,017のテストシナリオの実験では、古典的なIDDフレームワークを現代的なReActスタイルの推論と統合することで、純粋な理論ベースのエージェントとテクニックのみのアプローチの両方よりも優れたパフォーマンスを実現している。
さらに分析したところ、理論的な品質はベンチマークのパフォーマンスと強く相関し、理論に基づくエージェントは問題中心の設計と客観的アライメントにおいて大きな優位性を示すことがわかった。
我々の研究は、LSMベースのISD研究の基盤を提供する。
関連論文リスト
- Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis [2.903627214446312]
本稿では,マルチエージェント LLM フレームワークを基本次元に沿って体系的に比較するためのアーキテクチャ分類法を提案する。
我々は,既存のベンチマークを標準化された実行パイプラインの下で統合する統合評価スイートを開発した。
以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T05:37:56Z) - MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System [1.3052252174353483]
体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
論文 参考訳(メタデータ) (2025-09-21T21:17:23Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。
LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文 参考訳(メタデータ) (2025-03-31T16:56:52Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。