論文の概要: Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03704v1
- Date: Tue, 03 Feb 2026 16:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.57285
- Title: Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models
- Title(参考訳): 認知的多言語質問生成:大規模言語モデルを用いたハイブリッド多言語フレームワーク
- Authors: Yu Tian, Linh Huynh, Katerina Christhilf, Shubham Chakraborty, Micah Watanabe, Tracy Arner, Danielle McNamara,
- Abstract要約: ReQUESTAは認知学的に多様な多目的質問(MCQ)を生成するためのハイブリッドマルチエージェントフレームワークである
本研究では,学術論文を用いた大規模読解学習における枠組みの評価を行った。
その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
- 参考スコア(独自算出の注目度): 4.155649113742267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have made automated multiple-choice question (MCQ) generation increasingly feasible; however, reliably producing items that satisfy controlled cognitive demands remains a challenge. To address this gap, we introduce ReQUESTA, a hybrid, multi-agent framework for generating cognitively diverse MCQs that systematically target text-based, inferential, and main idea comprehension. ReQUESTA decomposes MCQ authoring into specialized subtasks and coordinates LLM-powered agents with rule-based components to support planning, controlled generation, iterative evaluation, and post-processing. We evaluated the framework in a large-scale reading comprehension study using academic expository texts, comparing ReQUESTA-generated MCQs with those produced by a single-pass GPT-5 zero-shot baseline. Psychometric analyses of learner responses assessed item difficulty and discrimination, while expert raters evaluated question quality across multiple dimensions, including topic relevance and distractor quality. Results showed that ReQUESTA-generated items were consistently more challenging, more discriminative, and more strongly aligned with overall reading comprehension performance. Expert evaluations further indicated stronger alignment with central concepts and superior distractor linguistic consistency and semantic plausibility, particularly for inferential questions. These findings demonstrate that hybrid, agentic orchestration can systematically improve the reliability and controllability of LLM-based generation, highlighting workflow design as a key lever for structured artifact generation beyond single-pass prompting.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自動多目的質問(MCQ)生成をますます実現しているが、制御された認知要求を満たすアイテムを確実に生成することは、依然として課題である。
このギャップに対処するために、テキストベース、推論、主観的理解を体系的にターゲットとする認知的に多様なMCQを生成するハイブリッドマルチエージェントフレームワークReQUESTAを紹介する。
ReQUESTAはMCQのオーサリングを特別なサブタスクに分解し、LCMをベースとしたエージェントをルールベースのコンポーネントで調整し、計画、制御された生成、反復的評価、後処理をサポートする。
学術論文を用いた大規模読解学習において,ReQUESTA 生成 MCQ をシングルパス GPT-5 ゼロショットベースラインで生成したものと比較した。
学習者反応の心理的分析では項目の難易度と識別が評価され、専門家は話題の関連性や気晴らしの質など、多次元にわたる質問品質が評価された。
その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
専門家による評価は、特に推論問題において、中心的な概念とより優れた言語的一貫性と意味的妥当性との整合性を示した。
これらの結果から,ハイブリッドエージェントオーケストレーションはLLM生成の信頼性と制御性を体系的に向上し,単一パスプロンプトを超える構造化アーティファクト生成のキーレバーとしてワークフロー設計を強調した。
関連論文リスト
- EduAgentQG: A Multi-Agent Workflow Framework for Personalized Question Generation [56.43882334582494]
高品質で多様なパーソナライズされた質問を生成するための多エージェント協調フレームワークであるEduAgentQGを提案する。
フレームワークは5つの特殊エージェントで構成され、反復的なフィードバックループを介して動作する。
EduAgentQGは、質問の多様性、ゴールの一貫性、全体的な品質の点で、既存のシングルエージェントとマルチエージェントの手法より優れている。
論文 参考訳(メタデータ) (2025-11-08T12:25:31Z) - Multi-Agent Collaborative Framework For Math Problem Generation [0.0]
本稿では,推論時間を自動質問生成に組み込む新しい手法として,協調型マルチエージェントフレームワークを提案する。
予備評価では、この協調型マルチエージェントフレームワークは、生成された教育コンテンツの品質を高めることが示されている。
論文 参考訳(メタデータ) (2025-11-06T01:24:07Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [6.0636611835869205]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。