論文の概要: ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows
- arxiv url: http://arxiv.org/abs/2510.20279v1
- Date: Thu, 23 Oct 2025 07:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.466042
- Title: ResearchGPT: Benchmarking and Training LLMs for End-to-End Computer Science Research Workflows
- Title(参考訳): ResearchGPT: エンドツーエンドのコンピュータサイエンス研究ワークフローのためのLLMのベンチマークとトレーニング
- Authors: Penghao Wang, Yuhao Zhou, Mengxuan Wu, Ziheng Qin, Bangyuan Zhu, Shengbin Huang, Xuanlei Zhao, Panpan Zhang, Xiaojiang Peng, Yuzhang Shang, Jianfei Yang, Zheng Zhu, Tianlong Chen, Zhangyang Wang, Kai Wang,
- Abstract要約: CS-54k(CS-54k)は、コンピュータ科学におけるQ&Aペアの高品質なコーパスである。
CS-4kは、科学研究を支援するAIの能力を評価するためのベンチマークである。
CS-50kは大規模なトレーニングデータセットである。
- 参考スコア(独自算出の注目度): 109.34792911044394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance, the ultimate vision for their role in science is emerging: we could build an AI collaborator to effectively assist human beings throughout the entire scientific research process. We refer to this envisioned system as ResearchGPT. Given that scientific research progresses through multiple interdependent phases, achieving this vision requires rigorous benchmarks that evaluate the end-to-end workflow rather than isolated sub-tasks. To this end, we contribute CS-54k, a high-quality corpus of scientific Q&A pairs in computer science, built from 14k CC-licensed papers. It is constructed through a scalable, paper-grounded pipeline that combines retrieval-augmented generation (RAG) with multi-stage quality control to ensure factual grounding. From this unified corpus, we derive two complementary subsets: CS-4k, a carefully curated benchmark for evaluating AI's ability to assist scientific research, and CS-50k, a large-scale training dataset. Extensive experiments demonstrate that CS-4k stratifies state-of-the-art LLMs into distinct capability tiers. Open models trained on CS-50k with supervised training and reinforcement learning demonstrate substantial improvements. Even 7B-scale models, when properly trained, outperform many larger proprietary systems, such as GPT-4.1, GPT-4o, and Gemini 2.5 Pro. This indicates that making AI models better research assistants relies more on domain-aligned training with high-quality data than on pretraining scale or general benchmark performance. We release CS-4k and CS-50k in the hope of fostering AI systems as reliable collaborators in CS research.
- Abstract(参考訳): 大きな言語モデル(LLM)が進むにつれ、科学における彼らの役割に対する究極のビジョンが生まれつつある。
我々は、この構想されたシステムをResearchGPTと呼ぶ。
科学的研究が複数の相互依存フェーズを通じて進行していることを考えると、このビジョンを達成するには、分離されたサブタスクではなく、エンドツーエンドのワークフローを評価する厳密なベンチマークが必要である。
この目的のために,コンピュータ科学におけるQ&Aペアの高品質コーパスであるCS-54kを14kのCCライセンス論文から作成する。
これは、検索拡張世代(RAG)とマルチステージ品質制御を組み合わせた、スケーラブルで紙張りのパイプラインによって構築され、事実上の接地を保証する。
この統合コーパスから、科学研究を支援するAIの能力を評価するために慎重にキュレートされたベンチマークであるCS-4kと、大規模なトレーニングデータセットであるCS-50kの2つの補完的なサブセットを導出します。
CS-4kは、最先端のLCMを異なる能力層に成層することを示した。
CS-50kで訓練されたオープンモデルは、教師付きトレーニングと強化学習によって大幅に改善された。
適切に訓練された7Bスケールのモデルでさえ、GPT-4.1、GPT-4o、Gemini 2.5 Proなど多くの大型のプロプライエタリシステムより優れていた。
このことは、AIモデルをより良い研究アシスタントにすることは、事前トレーニングスケールや一般的なベンチマークパフォーマンスよりも、高品質なデータによるドメイン整合トレーニングに依存していることを示している。
我々は,CS研究における信頼性の高い協力者としてのAIシステムの育成を目指して,CS-4kとCS-50kをリリースする。
関連論文リスト
- APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - How Well Can AI Build SD Models? [0.0]
本稿では,AI生成因果写像の評価のための2つの指標について紹介する。
我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
論文 参考訳(メタデータ) (2025-03-19T14:48:47Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Large-scale learning of generalised representations for speaker
recognition [52.978310296712834]
多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
論文 参考訳(メタデータ) (2022-10-20T03:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。