論文の概要: The Agentic Researcher: A Practical Guide to AI-Assisted Research in Mathematics and Machine Learning
- arxiv url: http://arxiv.org/abs/2603.15914v1
- Date: Mon, 16 Mar 2026 21:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.98772
- Title: The Agentic Researcher: A Practical Guide to AI-Assisted Research in Mathematics and Machine Learning
- Title(参考訳): エージェント研究者 : 数学と機械学習におけるAI支援研究の実践的ガイド
- Authors: Max Zimmer, Nico Pelleriti, Christophe Roux, Sebastian Pokutta,
- Abstract要約: 本稿では,AIによる数学と機械学習の研究の実践的ガイドとなる。
I)AI統合の5段階の分類、(II)CLIコーディングエージェントを自律的な研究アシスタントに変えるオープンソースのフレームワーク、(III)ディープラーニングと数学のケーススタディである。
- 参考スコア(独自算出の注目度): 22.71288370686935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI tools and agents are reshaping how researchers work, from proving theorems to training neural networks. Yet for many, it remains unclear how these tools fit into everyday research practice. This paper is a practical guide to AI-assisted research in mathematics and machine learning: We discuss how researchers can use modern AI systems productively, where these systems help most, and what kinds of guardrails are needed to use them responsibly. It is organized into three parts: (I) a five-level taxonomy of AI integration, (II) an open-source framework that, through a set of methodological rules formulated as agent prompts, turns CLI coding agents (e.g., Claude Code, Codex CLI, OpenCode) into autonomous research assistants, and (III) case studies from deep learning and mathematics. The framework runs inside a sandboxed container, works with any frontier LLM through existing CLI agents, is simple enough to install and use within minutes, and scales from personal-laptop prototyping to multi-node, multi-GPU experimentation across compute clusters. In practice, our longest autonomous session ran for over 20 hours, dispatching independent experiments across multiple nodes without human intervention. We stress that our framework is not intended to replace the researcher in the loop, but to augment them. Our code is publicly available at https://github.com/ZIB-IOL/The-Agentic-Researcher.
- Abstract(参考訳): AIツールとエージェントは、定理の証明からニューラルネットワークのトレーニングに至るまで、研究者の働き方を変えようとしている。
しかし、多くの人にとって、これらのツールが日常的な研究にどのように当てはまるのかは不明だ。
この論文は、数学と機械学習におけるAI支援研究の実践的ガイドである。研究者は現代のAIシステムを生産的に利用し、これらのシステムが最も役立ち、それに責任を持って使用するために必要なガードレールの種類について論じる。
I)AI統合の5段階の分類、(II)エージェントプロンプトとして定式化された方法論ルールのセットを通じてCLIコーディングエージェント(CLIコード、Codex CLI、OpenCodeなど)を自律的な研究アシスタントに、(III)ディープラーニングと数学のケーススタディに変換する、オープンソースのフレームワークである。
フレームワークはサンドボックスコンテナ内で動作し、既存のCLIエージェントを介して任意のフロンティアLDMで動作する。数分でインストールおよび使用でき、パーソナルラップトッププロトタイピングから、計算クラスタ全体にわたるマルチノード、マルチGPU実験までスケールできる。
実際には、私たちの最長の自律セッションは20時間以上にわたって実行され、人間の介入なしに複数のノードに独立した実験を配置しました。
当社のフレームワークは、ループ内の研究者を置き換えることではなく、それらを強化することを目的としている、と強調する。
私たちのコードはhttps://github.com/ZIB-IOL/The-Agentic-Researcher.comで公開されています。
関連論文リスト
- Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists? [4.181639770490221]
本稿では,バイブ符号化に並列したAI時代のバイブ研究の概念を紹介する(Karpathy, 2025)。
コーディフィビリティと暗黙の知識要求という2つの側面に沿って研究活動を分類する認知タスクフレームワークを開発する。
AIエージェントは、スピード、カバレッジ、方法論的な足場において優れているが、理論的な独創性と暗黙のフィールド知識に苦慮している、と私は主張する。
論文 参考訳(メタデータ) (2026-02-25T20:52:14Z) - AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。
Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。
本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文 参考訳(メタデータ) (2026-02-06T16:45:02Z) - BuilderBench -- A benchmark for generalist agents [25.95740507109988]
BuilderBenchはエージェント事前トレーニングの研究を加速するベンチマークである。
訓練中、エージェントは環境に関する一般的な原則を探求し、学ぶ必要がある。
評価中、エージェントはタスクスイートから見えないターゲット構造を構築する必要がある。
論文 参考訳(メタデータ) (2025-10-07T04:23:48Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - RExBench: Can coding agents autonomously implement AI research extensions? [14.147417159347448]
LLM(Large Language Models)に基づくエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行することを約束している。
研究拡張とその実装は,このようなシステムにとって重要な能力である,と我々は主張する。
この機能の評価をサポートするために、RExBenchを導入します。
論文 参考訳(メタデータ) (2025-06-27T19:41:41Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。