Fugu-MT 論文翻訳(概要): Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

論文の概要: Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

arxiv url: http://arxiv.org/abs/2604.05854v1
Date: Tue, 07 Apr 2026 13:16:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.847975
Title: Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring
Title（参考訳）: Deep Researcher Agent: ゼロコストモニタリングによる24/7のディープラーニング実験のための自律的フレームワーク
Authors: Xiangyue Zhang,
Abstract要約: textbfDeep Researcher Agentは,大規模言語モデル(LLM)エージェントが時計周辺で自律的にディープラーニング実験を行うことを可能にする,オープンソースのフレームワークである。論文作成やコード生成に重点を置く既存のAI研究アシスタントとは異なり、私たちのシステムは仮説形成、コード実装、トレーニング実行、結果分析、反復的洗練という、完全な実験ライフサイクルに対処しています。
参考スコア（独自算出の注目度）: 2.4112990554464235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present \textbf{Deep Researcher Agent}, an open-source framework that enables large language model (LLM) agents to autonomously conduct deep learning experiments around the clock. Unlike existing AI research assistants that focus on paper writing or code generation, our system addresses the full experiment lifecycle: hypothesis formation, code implementation, training execution, result analysis, and iterative refinement. The framework introduces three key innovations: (1) \textbf{Zero-Cost Monitoring} -- a monitoring paradigm that incurs zero LLM API costs during model training by relying solely on process-level checks and log file reads; (2) \textbf{Two-Tier Constant-Size Memory} -- a memory architecture capped at $\sim$5K characters regardless of runtime duration, preventing the unbounded context growth that plagues long-running agents; and (3) \textbf{Minimal-Toolset Leader-Worker Architecture} -- a multi-agent design where each worker agent is equipped with only 3--5 tools, reducing per-call token overhead by up to 73\%. In sustained deployments spanning 30+ days, the framework autonomously completed 500+ experiment cycles across four concurrent research projects, achieving a 52\% improvement over baseline metrics in one project through 200+ automated experiments -- all at an average LLM cost of \$0.08 per 24-hour cycle. Code is available at https://github.com/Xiangyue-Zhang/auto-deep-researcher-24x7.
Abstract（参考訳）: 我々は,大規模言語モデル (LLM) エージェントがクロック周囲の深層学習実験を自律的に行うことを可能にする,オープンソースのフレームワークである‘textbf{Deep Researcher Agent} を提示する。論文作成やコード生成に重点を置く既存のAI研究アシスタントとは異なり、私たちのシステムは仮説形成、コード実装、トレーニング実行、結果分析、反復的洗練という、完全な実験ライフサイクルに対処しています。フレームワークは3つの重要なイノベーションを紹介している。(1) \textbf{Zero-Cost Monitoring} -- プロセスレベルのチェックとログファイルの読み込みのみに頼って、モデルトレーニング中にLLM APIのゼロコストを発生させる監視パラダイム、(2) \textbf{Two-Tier Constant-Size Memory} -- 実行時間に関係なく$5Kのメモリアーキテクチャ、長期実行エージェントを悩ませる無制限なコンテキスト成長の防止、(3) \textbf{Minimal-Toolset Leader-Worker Architecture} -- ワーカエージェントが3～5つのツールしか備えていないマルチエージェント設計。 30日以上の継続的デプロイメントでは、このフレームワークは4つのコンカレントリサーチプロジェクトを通じて500以上の試験サイクルを自律的に完了し、200以上の自動実験を通じて、1つのプロジェクトにおけるベースラインメトリクスよりも525%改善された。コードはhttps://github.com/Xiangyue-Zhang/auto-deep-researcher-24x7で公開されている。

関連論文リスト

MatClaw: An Autonomous Code-First LLM Agent for End-to-End Materials Exploration [0.0]
我々は、Pythonを直接書き、実行するためのコードファーストエージェントであるMatchClawを提示する。 MatClawはコード生成を確実に扱うが、暗黙のドメイン知識に苦慮している。その結果、ガイド付きと完全に自律的な計算材料研究のギャップはこれまで以上に狭くなっていることが明らかとなった。
論文参考訳（メタデータ） (2026-04-03T03:32:15Z)
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文参考訳（メタデータ） (2026-04-01T15:06:23Z)
Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion [14.484745002483258]
本稿では, エージェント駆動型自律強化学習研究における四足歩行のケーススタディについて述べる。エージェントが実行ループの大部分を実行する間、人間はエージェントコーディング環境を通じて高レベルなディレクティブを提供した。アイザック・ラボのDHAV1 12-DoFで、70以上の実験が14の波に編成され、初期の粗い地形の走行から7回ほどの平均的な報奨を得て、最高に記録された波動12回、exp063回、速度誤差0.263回と97%のタイムアウトを2000回以上行った。
論文参考訳（メタデータ） (2026-03-28T21:30:04Z)
The Agentic Researcher: A Practical Guide to AI-Assisted Research in Mathematics and Machine Learning [22.71288370686935]
本稿では,AIによる数学と機械学習の研究の実践的ガイドとなる。 I)AI統合の5段階の分類、(II)CLIコーディングエージェントを自律的な研究アシスタントに変えるオープンソースのフレームワーク、(III)ディープラーニングと数学のケーススタディである。
論文参考訳（メタデータ） (2026-03-16T21:02:06Z)
Lifecycle-Aware code generation: Leveraging Software Engineering Phases in LLMs [12.70863561286374]
トレーニング段階と推論段階の両方に中間アーティファクトを組み込んだライフサイクル対応フレームワークを導入する。実験によると、ライフサイクルレベルの微調整は、微調整の前に同じモデルで最大75%の精度でコードの正しさを向上させる。オープンソース LLM は、かつて私たちのフレームワークの下で微調整され、コードで事前訓練されたモデルにマッチするか、わずかに優れています。
論文参考訳（メタデータ） (2025-10-28T02:54:02Z)
AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T13:40:01Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and Benchmarking [4.721069729610892]
ディープラーニングは、ここ数年で急速に成長している機械学習の分野のひとつであり、研究を支援するために多くのライブラリがオープンソース化されている。本稿では、PythonライブラリであるTonicを紹介し、研究者が新しいアイデアを迅速に実装し、その重要性を測ることを可能にする。
論文参考訳（メタデータ） (2020-11-15T14:10:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。