論文の概要: CycleResearcher: Improving Automated Research via Automated Review
- arxiv url: http://arxiv.org/abs/2411.00816v1
- Date: Mon, 28 Oct 2024 08:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:42.391502
- Title: CycleResearcher: Improving Automated Research via Automated Review
- Title(参考訳): CycleResearcher: 自動レビューによる自動研究の改善
- Authors: Yixuan Weng, Minjun Zhu, Guangsheng Bao, Hongbo Zhang, Jindong Wang, Yue Zhang, Linyi Yang,
- Abstract要約: 本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
研究において、CycleResearcherモデルが作成した論文は、シミュレーションされたピアレビューで5.36点を獲得し、人間の専門家による5.24点を上回り、受け入れられた論文の5.69点に近づいた。
- 参考スコア(独自算出の注目度): 37.03497673861402
- License:
- Abstract: The automation of scientific discovery has been a long-standing goal within the research community, driven by the potential to accelerate knowledge creation. While significant progress has been made using commercial large language models (LLMs) as research assistants or idea generators, the possibility of automating the entire research process with open-source LLMs remains largely unexplored. This paper explores the feasibility of using open-source post-trained LLMs as autonomous agents capable of performing the full cycle of automated research and review, from literature review and manuscript preparation to peer review and paper revision. Our iterative preference training framework consists of CycleResearcher, which conducts research tasks, and CycleReviewer, which simulates the peer review process, providing iterative feedback via reinforcement learning. To train these models, we develop two new datasets, Review-5k and Research-14k, reflecting real-world machine learning research and peer review dynamics. Our results demonstrate that CycleReviewer achieves a 26.89\% improvement in mean absolute error (MAE) over individual human reviewers in predicting paper scores, indicating that LLMs can surpass expert-level performance in research evaluation. In research, the papers generated by the CycleResearcher model achieved a score of 5.36 in simulated peer reviews, surpassing the preprint level of 5.24 from human experts and approaching the accepted paper level of 5.69. This work represents a significant step toward fully automated scientific inquiry, providing ethical safeguards and advancing AI-driven research capabilities. The code, dataset and model weight are released at \url{http://github/minjun-zhu/Researcher}.
- Abstract(参考訳): 科学的発見の自動化は、知識創造を加速する可能性によって推進される研究コミュニティにおける長年の目標であった。
商用の大規模言語モデル(LLM)を研究アシスタントやアイデアジェネレータとして利用することは大きな進歩を遂げてきたが、オープンソース LLM による研究プロセス全体を自動化できる可能性は、まだ明らかになっていない。
本稿では,論文レビューや原稿作成からピアレビュー,ペーパーリビジョンまで,自動研究とレビューの全サイクルを遂行できる自律エージェントとして,オープンソースポストトレーニングLSMを使用することの可能性について検討する。
調査作業を行うCycleResearcherと、ピアレビュープロセスをシミュレートし、強化学習を通じて反復的なフィードバックを提供するCycleReviewerで構成されている。
これらのモデルをトレーニングするために、現実世界の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセット、Review-5kとResearch-14kを開発した。
これらの結果から,LCMが専門家レベルの評価を上回りうることを示すとともに,各紙スコアの予測において,平均絶対誤差(MAE)が26.89%向上していることが示唆された。
研究において、CycleResearcherモデルが作成した論文は、シミュレーションされたピアレビューで5.36点を獲得し、人間の専門家による5.24点を上回り、受け入れられた論文の5.69点に近づいた。
この研究は、完全に自動化された科学調査への重要なステップであり、倫理的保護とAIによる研究能力の進歩を提供する。
コード、データセット、モデルウェイトは \url{http://github/minjun-zhu/Researcher} でリリースされる。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Towards Fully Autonomous Research Powered by LLMs: Case Study on Simulations [5.03859766090879]
本研究では,大規模言語モデルを用いた自律型シミュレーションエージェントの実現可能性について検討する。
高分子鎖配座のシミュレーション問題をケーススタディとして, 異なるLLMを用いたASAの性能評価を行った。
その結果,ASA-GPT-4oは指定された研究ミッションでほぼ不当に実行された。
論文 参考訳(メタデータ) (2024-08-28T03:48:05Z) - LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。
レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文 参考訳(メタデータ) (2024-07-19T02:48:54Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - Towards Data-Centric Automatic R&D [17.158255487686997]
研究者はしばしば、本を読み、実験を通して検証することで、潜在的研究の方向性を求める。
データ駆動型ブラックボックス深層学習法は、幅広い実世界のシナリオにおいて、その効果を実証している。
本稿では,実世界のデータ中心型自動R&Dベンチマーク,すなわちRD2Benchを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:33:21Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、大規模言語モデルによる研究アイデア作成エージェントである。
科学文献に基づいて繰り返し精製しながら、問題、方法、実験設計を生成する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。