論文の概要: Automated MCQA Benchmarking at Scale: Evaluating Reasoning Traces as Retrieval Sources for Domain Adaptation of Small Language Models
- arxiv url: http://arxiv.org/abs/2509.10744v1
- Date: Fri, 12 Sep 2025 23:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.7586
- Title: Automated MCQA Benchmarking at Scale: Evaluating Reasoning Traces as Retrieval Sources for Domain Adaptation of Small Language Models
- Title(参考訳): 大規模MCQAベンチマークの自動化:小言語モデルのドメイン適応のための検索源としての推論トレースの評価
- Authors: Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens,
- Abstract要約: 本稿では,複数の質問応答ベンチマークを生成するためのスケーラブルでモジュール化されたフレームワークを提案する。
私たちのパイプラインは,PDF解析,セマンティックチャンキング,質問生成,モデル評価など,MCQA生成のすべての段階を自動化する。
推論トレースの検索は、合成ベンチマークとエキスパートアノテートベンチマークの両方のパフォーマンスを継続的に改善する。
- 参考スコア(独自算出の注目度): 7.232383381822326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As scientific knowledge grows at an unprecedented pace, evaluation benchmarks must evolve to reflect new discoveries and ensure language models are tested on current, diverse literature. We propose a scalable, modular framework for generating multiple-choice question-answering (MCQA) benchmarks directly from large corpora of scientific papers. Our pipeline automates every stage of MCQA creation, including PDF parsing, semantic chunking, question generation, and model evaluation. As a case study, we generate more than 16,000 MCQs from 22,000 open-access articles in radiation and cancer biology. We then evaluate a suite of small language models (1.1B-14B parameters) on these questions, comparing baseline accuracy with retrieval-augmented generation (RAG) from paper-derived semantic chunks and from reasoning traces distilled from GPT-4.1. We find that reasoning-trace retrieval consistently improves performance on both synthetic and expert-annotated benchmarks, enabling several small models to surpass GPT-4 on the 2023 Astro Radiation and Cancer Biology exam.
- Abstract(参考訳): 科学的知識が前例のないペースで成長するにつれて、評価ベンチマークは新たな発見を反映し、言語モデルが現在の多種多様な文献でテストされることを保証するために進化する必要がある。
本稿では,大規模な学術論文のコーパスから直接,MCQA(Multiple-choice Question-Awering)ベンチマークを生成するためのスケーラブルでモジュール化されたフレームワークを提案する。
私たちのパイプラインは,PDF解析,セマンティックチャンキング,質問生成,モデル評価など,MCQA生成のすべての段階を自動化する。
ケーススタディでは,放射線および癌生物学の22,000件のオープンアクセス記事から16,000件以上のMCQを生成した。
次に,これらの質問に対して,紙由来のセマンティックチャンクから抽出した検索強化生成(RAG)と,GPT-4.1から抽出した推論トレースから,ベースライン精度を比較し,一連の小言語モデル (1.1B-14Bパラメータ) を評価する。
その結果,2023年の放射線・癌生物学試験において,いくつかの小モデルでGPT-4を上回り,レーティング・トレースの検索により,総合的および専門的アノテーション付きベンチマークの性能が一貫して向上することが判明した。
関連論文リスト
- Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models [5.584522240405349]
本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
論文 参考訳(メタデータ) (2025-08-27T18:54:32Z) - LLMs Outperform Experts on Challenging Biology Benchmarks [0.0]
本研究は8つの生物学ベンチマークで27のフロンティア大言語モデルを体系的に評価する。
トップモデルのパフォーマンスは、Virology Capabilities Testの挑戦的なテキストのみのサブセットで4倍以上に向上した。
いくつかのモデルは、他の挑戦的なベンチマークで専門家レベルのパフォーマンスに適合または超えている。
論文 参考訳(メタデータ) (2025-05-09T15:05:57Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。
RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。
このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。
我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文 参考訳(メタデータ) (2024-03-12T17:59:48Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。