論文の概要: SelfAI: Building a Self-Training AI System with LLM Agents
- arxiv url: http://arxiv.org/abs/2512.00403v1
- Date: Sat, 29 Nov 2025 09:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.223622
- Title: SelfAI: Building a Self-Training AI System with LLM Agents
- Title(参考訳): SelfAI: LLMエージェントによる自己学習AIシステムの構築
- Authors: Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng, Xiaobing Yu, Yu Zhong, Shangqi Deng, Ufaq Khan, Jianghao Wu, Xiaofeng Liu, Imran Razzak, Xiaojun Chang, Yutong Xie,
- Abstract要約: SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
- 参考スコア(独自算出の注目度): 79.10991818561907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on autonomous scientific discovery has leveraged LLM-based agents to integrate problem specification, experiment planning, and execution into end-to-end systems. However, these frameworks are often confined to narrow application domains, offer limited real-time interaction with researchers, and lack principled mechanisms for determining when to halt exploration, resulting in inefficiencies, reproducibility challenges, and under-utilized human expertise. To address these gaps, we propose \textit{SelfAI}, a general multi-agent platform that combines a User Agent for translating high-level research objectives into standardized experimental configurations, a Cognitive Agent powered by LLMs with optimal stopping criteria to iteratively refine hyperparameter searches, and an Experiment Manager responsible for orchestrating parallel, fault-tolerant training workflows across heterogeneous hardware while maintaining a structured knowledge base for continuous feedback. We further introduce two novel evaluation metrics, Score and $\text{AUP}_D$, to quantify discovery efficiency and search diversity. Across regression, NLP, computer vision, scientific computing, medical imaging, and drug discovery benchmarks, SelfAI consistently achieves strong performance and reduces redundant trials compared to classical Bayesian optimization and LLM-based baselines, while enabling seamless interaction with human researchers.
- Abstract(参考訳): 自律的な科学的発見に関する最近の研究は、LLMベースのエージェントを活用して、問題仕様、実験計画、実行をエンドツーエンドシステムに統合している。
しかしながら、これらのフレームワークは、狭いアプリケーションドメインに限定され、研究者とのリアルタイムのやりとりが制限され、探索をいつ停止するかを決めるための原則的なメカニズムが欠如しており、その結果、非効率性、再現性の問題、未使用の人間の専門知識が欠如している。
これらのギャップに対処するために,高レベルの研究目的を標準化された実験構成に翻訳するユーザエージェントと,高パラメータ探索を反復的に洗練するための最適な停止基準を持つ認知エージェントと,異種ハードウェア間で並列でフォールトトレラントなトレーニングワークフローを編成する実験マネージャとを組み合わせた,汎用的なマルチエージェントプラットフォームである‘textit{SelfAI} を提案する。
さらに、探索効率と探索多様性を定量化するために、Scoreと$\text{AUP}_D$という2つの新しい評価指標を導入する。
回帰、NLP、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、古典的ベイズ最適化やLLMベースのベースラインと比較して冗長な試行を減らし、人間の研究者とのシームレスな対話を可能にしている。
関連論文リスト
- AutoLabs: Cognitive Multi-Agent Systems with Self-Correction for Autonomous Chemical Experimentation [0.10999592665107412]
AutoLabsは、自然言語命令を自動で実行可能なプロトコルに変換するように設計された、自己修正型マルチエージェントアーキテクチャである。
複雑化に関する5つのベンチマーク実験を特徴とする総合評価フレームワークを提案する。
以上の結果から,エージェント推論能力が成功の最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2025-09-30T01:51:46Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。