論文の概要: CycleResearcher: Improving Automated Research via Automated Review
- arxiv url: http://arxiv.org/abs/2411.00816v1
- Date: Mon, 28 Oct 2024 08:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:42.391502
- Title: CycleResearcher: Improving Automated Research via Automated Review
- Title(参考訳): CycleResearcher: 自動レビューによる自動研究の改善
- Authors: Yixuan Weng, Minjun Zhu, Guangsheng Bao, Hongbo Zhang, Jindong Wang, Yue Zhang, Linyi Yang,
- Abstract要約: 本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
研究において、CycleResearcherモデルが作成した論文は、シミュレーションされたピアレビューで5.36点を獲得し、人間の専門家による5.24点を上回り、受け入れられた論文の5.69点に近づいた。
- 参考スコア(独自算出の注目度): 37.03497673861402
- License:
- Abstract: The automation of scientific discovery has been a long-standing goal within the research community, driven by the potential to accelerate knowledge creation. While significant progress has been made using commercial large language models (LLMs) as research assistants or idea generators, the possibility of automating the entire research process with open-source LLMs remains largely unexplored. This paper explores the feasibility of using open-source post-trained LLMs as autonomous agents capable of performing the full cycle of automated research and review, from literature review and manuscript preparation to peer review and paper revision. Our iterative preference training framework consists of CycleResearcher, which conducts research tasks, and CycleReviewer, which simulates the peer review process, providing iterative feedback via reinforcement learning. To train these models, we develop two new datasets, Review-5k and Research-14k, reflecting real-world machine learning research and peer review dynamics. Our results demonstrate that CycleReviewer achieves a 26.89\% improvement in mean absolute error (MAE) over individual human reviewers in predicting paper scores, indicating that LLMs can surpass expert-level performance in research evaluation. In research, the papers generated by the CycleResearcher model achieved a score of 5.36 in simulated peer reviews, surpassing the preprint level of 5.24 from human experts and approaching the accepted paper level of 5.69. This work represents a significant step toward fully automated scientific inquiry, providing ethical safeguards and advancing AI-driven research capabilities. The code, dataset and model weight are released at \url{http://github/minjun-zhu/Researcher}.
- Abstract(参考訳): 科学的発見の自動化は、知識創造を加速する可能性によって推進される研究コミュニティにおける長年の目標であった。
商用の大規模言語モデル(LLM)を研究アシスタントやアイデアジェネレータとして利用することは大きな進歩を遂げてきたが、オープンソース LLM による研究プロセス全体を自動化できる可能性は、まだ明らかになっていない。
本稿では,論文レビューや原稿作成からピアレビュー,ペーパーリビジョンまで,自動研究とレビューの全サイクルを遂行できる自律エージェントとして,オープンソースポストトレーニングLSMを使用することの可能性について検討する。
調査作業を行うCycleResearcherと、ピアレビュープロセスをシミュレートし、強化学習を通じて反復的なフィードバックを提供するCycleReviewerで構成されている。
これらのモデルをトレーニングするために、現実世界の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセット、Review-5kとResearch-14kを開発した。
これらの結果から,LCMが専門家レベルの評価を上回りうることを示すとともに,各紙スコアの予測において,平均絶対誤差(MAE)が26.89%向上していることが示唆された。
研究において、CycleResearcherモデルが作成した論文は、シミュレーションされたピアレビューで5.36点を獲得し、人間の専門家による5.24点を上回り、受け入れられた論文の5.69点に近づいた。
この研究は、完全に自動化された科学調査への重要なステップであり、倫理的保護とAIによる研究能力の進歩を提供する。
コード、データセット、モデルウェイトは \url{http://github/minjun-zhu/Researcher} でリリースされる。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Agent Laboratory: Using LLM Agents as Research Assistants [26.588095150057384]
Agent Laboratoryは、研究プロセス全体を完了できる自律的なフレームワークである。
人間が提案する研究アイデアを受け入れ、文学的レビュー、実験、レポート作成という3つの段階を進む。
エージェント・ラボラトリーは研究費を大幅に削減し、従来の自律的な研究方法に比べて84%の削減を実現している。
論文 参考訳(メタデータ) (2025-01-08T01:58:42Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - Towards Data-Centric Automatic R&D [17.158255487686997]
研究者はしばしば、本を読み、実験を通して検証することで、潜在的研究の方向性を求める。
データ駆動型ブラックボックス深層学習法は、幅広い実世界のシナリオにおいて、その効果を実証している。
本稿では,実世界のデータ中心型自動R&Dベンチマーク,すなわちRD2Benchを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:33:21Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。