論文の概要: AgentRxiv: Towards Collaborative Autonomous Research
- arxiv url: http://arxiv.org/abs/2503.18102v1
- Date: Sun, 23 Mar 2025 15:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:54.057503
- Title: AgentRxiv: Towards Collaborative Autonomous Research
- Title(参考訳): AgentRxiv: 協調的自律研究を目指して
- Authors: Samuel Schmidgall, Michael Moor,
- Abstract要約: AgentRxivは、エージェントが研究目標に向けて協力し、研究者が発見を加速できるようにする。
最高のパフォーマンス戦略が他の領域のベンチマークに一般化されることが分かりました。
これらの結果は、自律エージェントが未来のAIシステムを人間と一緒に設計する役割を担っていることを示唆している。
- 参考スコア(独自算出の注目度): 3.583084119066612
- License:
- Abstract: Progress in scientific discovery is rarely the result of a single "Eureka" moment, but is rather the product of hundreds of scientists incrementally working together toward a common goal. While existing agent workflows are capable of producing research autonomously, they do so in isolation, without the ability to continuously improve upon prior research results. To address these challenges, we introduce AgentRxiv-a framework that lets LLM agent laboratories upload and retrieve reports from a shared preprint server in order to collaborate, share insights, and iteratively build on each other's research. We task agent laboratories to develop new reasoning and prompting techniques and find that agents with access to their prior research achieve higher performance improvements compared to agents operating in isolation (11.4% relative improvement over baseline on MATH-500). We find that the best performing strategy generalizes to benchmarks in other domains (improving on average by 3.3%). Multiple agent laboratories sharing research through AgentRxiv are able to work together towards a common goal, progressing more rapidly than isolated laboratories, achieving higher overall accuracy (13.7% relative improvement over baseline on MATH-500). These findings suggest that autonomous agents may play a role in designing future AI systems alongside humans. We hope that AgentRxiv allows agents to collaborate toward research goals and enables researchers to accelerate discovery.
- Abstract(参考訳): 科学的発見の進歩は単一の「ユーレカ」モーメントの結果であることは滅多にないが、むしろ何百人もの科学者が共通の目標に向けて漸進的に協力する産物である。
既存のエージェントワークフローは、自律的に研究を作成できるが、先行研究結果を継続的に改善する能力を持たず、独立して研究を行うことができる。
これらの課題に対処するために、私たちはAgentRxivというフレームワークを導入しました。これは、LLMエージェント研究所が共有されたプレプリントサーバからレポートをアップロードして、共同で、洞察を共有し、相互の研究に基づいて反復的に構築することを可能にするフレームワークです。
我々は, エージェント研究所に新たな推論・促進技術の開発を依頼し, 先行研究にアクセスできるエージェントは, 単独で作業するエージェントに比べて高い性能向上(MATH-500のベースラインよりも11.4%向上)を達成できることを確認した。
最高のパフォーマンス戦略は、他のドメインのベンチマーク(平均3.3%の改善)に一般化する。
エージェントRxivを介して研究を共有する複数のエージェント研究所は共通の目標に向けて協力し、孤立した実験室よりも急速に進歩し、全体的な精度が13.7%向上した(MATH-500のベースラインよりも相対的な改善)。
これらの結果は、自律エージェントが未来のAIシステムを人間と一緒に設計する役割を担っていることを示唆している。
我々は、AgentRxivによってエージェントが研究目標に向けて協力し、研究者が発見を加速できることを期待している。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Agent Laboratory: Using LLM Agents as Research Assistants [26.588095150057384]
Agent Laboratoryは、研究プロセス全体を完了できる自律的なフレームワークである。
人間が提案する研究アイデアを受け入れ、文学的レビュー、実験、レポート作成という3つの段階を進む。
エージェント・ラボラトリーは研究費を大幅に削減し、従来の自律的な研究方法に比べて84%の削減を実現している。
論文 参考訳(メタデータ) (2025-01-08T01:58:42Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。