論文の概要: Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work
- arxiv url: http://arxiv.org/abs/2605.21413v2
- Date: Thu, 21 May 2026 09:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.450552
- Title: Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work
- Title(参考訳): ベンチマーク構築によるAI教育 - アカウンタブルな知識労働のためのコースベース実践としてのQuestBench
- Authors: Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma,
- Abstract要約: ベンチマーク構築を通じてAIを教えるコースベースのプラクティスを導入する。
学生は学際的な知識を検証可能な専門家レベルの質問に変換する。
学生は結果のタスクでAIシステムを評価する。
- 参考スコア(独自算出の注目度): 9.434503228899455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI becomes part of everyday learning, many courses teach students to use it mainly as a productivity tool: how to prompt, search, summarize, write, code, and use tools more efficiently. We argue that AI education also needs a setting in which students learn to test AI and understand their own role in judging machine-produced knowledge. To this end, we introduce a course-based practice that teaches AI through benchmark construction, using deep research systems as a concrete example of AI-era knowledge work. Students turn disciplinary knowledge into verifiable expert-level questions, review one another's designs for ambiguity and shortcuts, and evaluate AI systems on the resulting tasks. This activity gives students direct exposure to a powerful tool while asking them to specify what a trustworthy answer would require. The produced benchmark, QuestBench, consists of 256 questions across 14 humanities and social-science domains. Evaluation on QuestBench shows that student-designed tasks reveal hidden failures in current deep research systems: across thirteen evaluated systems, the mean question-level pass rate is only 16.85%, and the best-performing system, GPT-5.5, reaches a 57.58% pass rate. The failures are educationally useful because they show how fluent, source-backed answers can still miss the right query, source, term, or evidence standard. Reflections from five student contributors suggest that benchmark construction can help students see professional knowledge not only as content AI may retrieve, but as the basis for judging AI outputs. We present QuestBench as a benchmark artifact and as a reusable classroom setting for a larger educational question: how students can remain responsible knowledge actors as AI enters learning and professional work. The dataset is available at https://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/main.
- Abstract(参考訳): AIが日常的な学習の一部になると、多くのコースは学生に生産性ツールとして使うように教える。
我々は、AI教育は、学生がAIをテストすることを学び、機械生成知識を判断する上での自身の役割を理解する環境も必要であると主張している。
そこで我々は,AI時代の知識労働の具体例として,ディープリサーチシステムを用いて,ベンチマーク構築を通じてAIを教えるコースベースの実践を紹介した。
学生は学際的知識を検証可能な専門家レベルの質問に変換し、曖昧さとショートカットのために互いのデザインをレビューし、結果のタスクに関するAIシステムを評価する。
この活動により、学生は強力なツールに直接露出し、信頼できる答えが何を必要とするかを指定することができる。
生成されたベンチマークであるQuestBenchは、14の人文科学ドメインと社会科学ドメインにわたる256の質問で構成されている。
QuestBenchの評価は、学生が設計したタスクが、現在のディープリサーチシステムに隠れた障害を露呈していることを示している:13の評価システムにおいて、平均的な質問レベルパスレートは16.85%であり、最高のパフォーマンスシステムであるGPT-5.5は57.58%のパスレートに達する。
これらの失敗は教育的に有用である。なぜなら、ソースに支えられた回答が、正しいクエリ、ソース、用語、エビデンス標準を見逃す可能性があるからだ。
5人の学生コントリビュータのリフレクションは、ベンチマーク構築は、AIが取得できるコンテンツだけでなく、AIアウトプットを判断する基盤として、学生が専門的な知識を見るのに役立つことを示唆している。
我々は、QuestBenchをベンチマークアーティファクトとして、また、より大規模な教育的問題のための再利用可能な教室環境として提示する。
データセットはhttps://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/mainで公開されている。
関連論文リスト
- Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks [0.0]
私たちは、認知的要求の4レベルにわたって数学のタスクを分類する能力に基づいて、11のAIツールをテストしました。
平均して、AIツールは認知的需要を63%のケースで正確に分類した。
すべてのツールは、認知的要求の極端にタスクに苦しんだ。
論文 参考訳(メタデータ) (2026-03-03T20:39:55Z) - Can AI Chatbots Provide Coaching in Engineering? Beyond Information Processing Toward Mastery [1.4837859618020621]
エンジニアリング教育は、二重の破壊に直面している。判断と暗黙のスキルを養う伝統的な見習いモデルは、非公式のコーチングパートナーとして生成AIが出現するのと同じように、浸食している。
この収束は、AIの哲学と計算の限界、具体的合理性の性質、情報処理と知恵の区別に関する認知に関する長年の疑問を再燃させる。
我々は、専門知識、暗黙の知識、人間と機械の相互作用に関する何十年もの奨学金から批判的な視点を合成し、現代のAI駆動教育の文脈にそれらを置く。
本稿では,ループモデルに人間の知恵を組み込んだマルチプレックスコーチングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T08:28:47Z) - Learning to Use AI for Learning: How Can We Effectively Teach and Measure Prompting Literacy for K-12 Students? [1.413488665073795]
次世代に応用し、対話し、評価し、AIシステムと協力する能力を持たせる必要性が高まっている。
このニーズに対処するため,我々はLarge-Language Model (LLM) ベースのモジュールを設計した。
第1報,第1報,第2報,第2報,第2報,第1報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第
論文 参考訳(メタデータ) (2025-08-19T15:54:51Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - CourseAssist: Pedagogically Appropriate AI Tutor for Computer Science Education [1.052788652996288]
このポスターでは、コンピュータサイエンス教育用に作られた新しいLLMベースのチューターシステムであるCourseAssistを紹介している。
一般的なLLMシステムとは異なり、CourseAssistは検索強化生成、ユーザ意図分類、質問分解を使用して、AI応答を特定のコース材料や学習目標と整合させる。
論文 参考訳(メタデータ) (2024-05-01T20:43:06Z) - UKP-SQuARE: An Interactive Tool for Teaching Question Answering [61.93372227117229]
質問応答の指数的増加(QA)は、あらゆる自然言語処理(NLP)コースにおいて必須のトピックとなっている。
本稿では、QA教育のプラットフォームとしてUKP-SQuAREを紹介する。
学生は様々な視点から様々なQAモデルを実行、比較、分析することができる。
論文 参考訳(メタデータ) (2023-05-31T11:29:04Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Explainable Active Learning (XAL): An Empirical Study of How Local
Explanations Impact Annotator Experience [76.9910678786031]
本稿では、最近急増している説明可能なAI(XAI)のテクニックをアクティブラーニング環境に導入することにより、説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。
本研究は,機械教育のインタフェースとしてのAI説明の利点として,信頼度校正を支援し,リッチな形式の教示フィードバックを可能にすること,モデル判断と認知作業負荷による潜在的な欠点を克服する効果を示す。
論文 参考訳(メタデータ) (2020-01-24T22:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。