論文の概要: EduResearchBench: A Hierarchical Atomic Task Decomposition Benchmark for Full-Lifecycle Educational Research
- arxiv url: http://arxiv.org/abs/2602.15034v1
- Date: Thu, 22 Jan 2026 09:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.616122
- Title: EduResearchBench: A Hierarchical Atomic Task Decomposition Benchmark for Full-Lifecycle Educational Research
- Title(参考訳): EduResearchBench: フルライフサイクル教育研究のための階層的原子タスク分解ベンチマーク
- Authors: Houping Yue, Zixiang Di, Mei Jiang, Bingdong Li, Hao Hao, Yu Song, Bo Jiang, Aimin Zhou,
- Abstract要約: EduResearchBenchは,学術論文を対象とした初の総合的評価プラットフォームである。
EduResearchBenchは階層的原子タスク分解(HATD)フレームワーク上に構築されています。
本稿では,基礎的スキルから複雑な方法論的推論,議論に至るまで,段階的に能力を高めるカリキュラム学習戦略を提案する。
- 参考スコア(独自算出の注目度): 21.988207602041182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) are reshaping the paradigm of AI for Social Science (AI4SS), rigorously evaluating their capabilities in scholarly writing remains a major challenge. Existing benchmarks largely emphasize single-shot, monolithic generation and thus lack the fine-grained assessments required to reflect complex academic research workflows. To fill this gap, we introduce EduResearchBench, the first comprehensive evaluation platform dedicated to educational academic writing. EduResearchBench is built upon our Hierarchical Atomic Task Decomposition (HATD) framework, which decomposes an end-to-end research workflow into six specialized research modules (e.g., Quantitative Analysis, Qualitative Research, and Policy Research) spanning 24 fine-grained atomic tasks. This taxonomy enables an automated evaluation pipeline that mitigates a key limitation of holistic scoring, where aggregate scores often obscure specific capability bottlenecks, and instead provides fine-grained, diagnostic feedback on concrete deficiencies. Moreover, recognizing the high cognitive load inherent in scholarly writing, we propose a curriculum learning strategy that progressively builds competence from foundational skills to complex methodological reasoning and argumentation. Leveraging 55K raw academic samples, we curate 11K high-quality instruction pairs to train EduWrite, a specialized educational scholarly writing model. Experiments show that EduWrite (30B) substantially outperforms larger general-purpose models (72B) on multiple core metrics, demonstrating that in vertical domains, data quality density and hierarchically staged training curricula are more decisive than parameter scale.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会科学のためのAI(AI4SS)のパラダイムを変えつつあるが、学術的な執筆におけるその能力を厳格に評価することは大きな課題である。
既存のベンチマークは、シングルショットでモノリシックな生成に重点を置いており、複雑な学術研究のワークフローを反映するために必要なきめ細かい評価を欠いている。
このギャップを埋めるために、教育学術著作に特化した初の総合的な評価プラットフォームであるEduResearchBenchを紹介します。
EduResearchBenchは、我々の階層的原子タスク分解(HATD)フレームワークに基づいています。これは、エンドツーエンドの研究ワークフローを、24のきめ細かい原子タスクにまたがる6つの専門的な研究モジュール(例えば、定量分析、質的研究、ポリシー研究)に分解します。
この分類法は、総合的なスコアの鍵となる制限を緩和する自動評価パイプラインを可能にし、アグリゲーションスコアは、しばしば特定の機能ボトルネックを曖昧にし、具体的欠陥に関するきめ細かい、診断的なフィードバックを提供する。
さらに,学術書記に固有の認知的負荷が高いことを認識し,基礎的スキルから複雑な方法論的推論,議論に至るまでの能力の段階的構築を行うカリキュラム学習戦略を提案する。
55Kの生のサンプルを活用して、1万の高品質の授業ペアをキュレートし、専門的な学術書記モデルであるEduWriteを訓練する。
実験により、EduWrite (30B) は、複数のコアメトリクス上でより大きな汎用モデル (72B) を大幅に上回り、垂直領域では、データ品質密度と階層的なトレーニングカリキュラムがパラメータスケールよりも決定的であることを実証した。
関連論文リスト
- Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind [4.964424546439509]
RebuttalAgentを紹介します。それは、心の理論(ToM)における学術的貢献を基礎とする最初の枠組みです。
トレーニングプロセスは2段階で構成されており,まずエージェントにToMに基づく分析と戦略的計画能力を持たせるための微調整フェーズを監督する。
信頼性と効率のよい自動評価を行うため,100万以上のマルチソース・リビュータルデータからトレーニングした特殊評価器Rebuttal-RMを開発した。
論文 参考訳(メタデータ) (2026-01-22T07:36:48Z) - Reward Modeling for Scientific Writing Evaluation [50.33952894976367]
多様なオープンエンドの科学的記述タスクを評価するために、確実にデプロイできるモデルを開発することが重要である。
本稿では,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
論文 参考訳(メタデータ) (2026-01-16T15:32:58Z) - Evaluating 21st-Century Competencies in Postsecondary Curricula with Large Language Models: Performance Benchmarking and Reasoning-Based Prompting Strategies [6.934935343001595]
我々は、幅広いカリキュラム文書、能力フレームワーク、モデルを調べることで、以前のカリキュラム分析研究を拡張した。
カリキュラムのアライメントスコアを手動で7,600点を用いて評価した。
我々はLLMの教育的推論を強化するための推論に基づくプロンプト戦略であるCurricular CoTを導入する。
論文 参考訳(メタデータ) (2026-01-16T04:07:23Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。
HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (2025-12-28T12:08:05Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。