論文の概要: Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2602.18891v1
- Date: Sat, 21 Feb 2026 16:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.377871
- Title: Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation
- Title(参考訳): 科学研究のためのLLMエージェントのオーケストレーション:Multiple Choice Question(MCQ)の生成と評価に関するパイロット研究
- Authors: Yuan An,
- Abstract要約: 大規模言語モデル (LLMs) は急速に科学的研究を変容させているが、これらのシステムが研究活動を再形成する方法に関する実証的な証拠は依然として限られている。
人間の研究者が複数のLSMエージェントを協調してデータ抽出、コーパス構築、アーティファクト生成、アーティファクト評価を行うAIオーケストレーション研究ワークフローの混合手法によるパイロット評価を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models (LLMs) are rapidly transforming scientific work, yet empirical evidence on how these systems reshape research activities remains limited. We report a mixed-methods pilot evaluation of an AI-orchestrated research workflow in which a human researcher coordinated multiple LLM-based agents to perform data extraction, corpus construction, artifact generation, and artifact evaluation. Using the generation and assessment of multiple-choice questions (MCQs) as a testbed, we collected 1,071 SAT Math MCQs and employed LLM agents to extract questions from PDFs, retrieve and convert open textbooks into structured representations, align each MCQ with relevant textbook content, generate new MCQs under specified difficulty and cognitive levels, and evaluate both original and generated MCQs using a 24-criterion quality framework. Across all evaluations, average MCQ quality was high. However, criterion-level analysis and equivalence testing show that generated MCQs are not fully comparable to expert-vetted baseline questions. Strict similarity (24/24 criteria equivalent) was never achieved. Persistent gaps concentrated in skill\ depth, cognitive engagement, difficulty calibration, and metadata alignment, while surface-level qualities, such as {grammar fluency}, {clarity options}, {no duplicates}, were consistently strong. Beyond MCQ outcomes, the study documents a labor shift. The researcher's work moved from ``authoring items'' toward {specification, orchestration, verification}, and {governance}. Formalizing constraints, designing rubrics, building validation loops, recovering from tool failures, and auditing provenance constituted the primary activities. We discuss implications for the future of scientific work, including emerging ``AI research operations'' skills required for AI-empowered research pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、科学的研究を急速に変化させているが、これらのシステムが研究活動を再形成する方法に関する実証的な証拠は依然として限られている。
人間の研究者が複数のLSMエージェントを協調してデータ抽出、コーパス構築、アーティファクト生成、アーティファクト評価を行うAIオーケストレーション研究ワークフローの混合手法によるパイロット評価を報告する。
テストベッドとしてMultiple-choice Question (MCQ) の生成と評価を用いて, 1,071 SAT Math MCQを収集し, LLMエージェントを用いてPDFから質問を抽出し, オープン教科書を構造化表現に変換し, 各MCQを関連する教科書内容に整合させ, 特定の難易度と認知度で新しいMCQを生成し, 24基準品質のフレームワークを用いて, オリジナルと生成されたMCQの両方を評価する。
すべての評価において,MCQの平均品質は高かった。
しかし、基準レベルの分析と等価性テストにより、生成されたMCQは、専門家が検証したベースライン問題と完全には比較できないことが示された。
厳密な類似性(24/24基準相当)は達成されなかった。
スキル・ディープ,認知的エンゲージメント,困難キャリブレーション,メタデータアライメントに集結した持続的ギャップに対して,表面レベルの品質,例えば {grammar fluency}, {clarity options}, {no copys} は一貫して強かった。
MCQの結果以外にも、この研究は労働シフトを報告している。
研究者の仕事は、‘オーサリング項目’から、‘特定、オーケストレーション、検証’、そして‘統治’へと移行した。
制約の形式化、ルーブリックの設計、バリデーションループの構築、ツールの障害からの回復、監査の実施などが主要な活動だった。
我々は,AIを活用した研究パイプラインに必要な「AI研究活動」スキルの出現を含む,科学研究の将来への意味について論じる。
関連論文リスト
- Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models [4.155649113742267]
ReQUESTAは認知学的に多様な多目的質問(MCQ)を生成するためのハイブリッドマルチエージェントフレームワークである
本研究では,学術論文を用いた大規模読解学習における枠組みの評価を行った。
その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
論文 参考訳(メタデータ) (2026-02-03T16:26:47Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - Large Language Models in Thematic Analysis: Prompt Engineering, Evaluation, and Guidelines for Qualitative Software Engineering Research [5.0043780915457114]
大規模言語モデル (LLMs) は定性的な研究に参入しているが、それらを数理解析 (thematic analysis, TA) のような確立されたアプローチに統合するための再現可能な手法は存在しない。
我々はブラウンとクラークの反射性TAの位相2-5のプロンプトを設計・繰り返し改良した。
ブラウンとクラークの品質基準から導出した潤滑剤を応用した4つの専門家評価器を用いてブラインド評価を行った。
論文 参考訳(メタデータ) (2025-10-21T09:29:18Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - From Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concerns [0.22585387137796725]
本稿では,ポルトガル語の読解における複数選択質問(McQ)作成における現在の生成モデルの有効性について検討する。
以上の結果から,現在のモデルでは,人間によるMCQに匹敵する品質のMCQを生成できることが示唆された。
しかし,本研究では,意味的明瞭度と応答可能性に関する問題点を同定する。
論文 参考訳(メタデータ) (2025-06-18T16:19:46Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。
データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。
収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文 参考訳(メタデータ) (2025-02-19T12:24:46Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。