論文の概要: ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters
- arxiv url: http://arxiv.org/abs/2602.02709v1
- Date: Mon, 02 Feb 2026 19:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.028673
- Title: ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters
- Title(参考訳): ATLAS : タスク分散多LLM支援者による適応型自己進化型研究エージェント
- Authors: Ujin Jeon, Jiyong Kwon, Madison Ann Sullivan, Caleb Eunho Lee, Guang Lin,
- Abstract要約: ATLASは、軽量な研究エージェントを反復的に開発するタスク分散フレームワークである。
我々のコアアルゴリズムであるEvolving Direct Preference Optimization (EvoDPO)は、位相インデックス付き参照ポリシーを適応的に更新する。
その結果,ATLASは静的単一エージェントベースラインの安定性と性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 6.13905106667213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multi-LLM agent systems perform well in prompt optimization and automated problem-solving, but many either keep the solver frozen after fine-tuning or rely on a static preference-optimization loop, which becomes intractable for long-horizon tasks. We propose ATLAS (Adaptive Task-distributed Learning for Agentic Self-evolution), a task-distributed framework that iteratively develops a lightweight research agent while delegating complementary roles to specialized supporter agents for exploration, hyperparameter tuning, and reference policy management. Our core algorithm, Evolving Direct Preference Optimization (EvoDPO), adaptively updates the phase-indexed reference policy. We provide a theoretical regret analysis for a preference-based contextual bandit under concept drift. In addition, experiments were conducted on non-stationary linear contextual bandits and scientific machine learning (SciML) loss reweighting for the 1D Burgers' equation. Both results show that ATLAS improves stability and performance over a static single-agent baseline.
- Abstract(参考訳): 最近のマルチLLMエージェントシステムは、迅速な最適化と自動問題解決においてよく機能するが、多くは微調整後に解解器を凍結し続けるか、あるいは静的な選好最適化ループに頼っている。
我々は,タスク分散フレームワークであるATLAS(Adaptive Task-Distributed Learning for Agentic Self-evolution)を提案する。
我々のコアアルゴリズムであるEvolving Direct Preference Optimization (EvoDPO)は、位相インデックス付き参照ポリシーを適応的に更新する。
概念的ドリフト下での嗜好に基づく文脈的バンディットに対する理論的後悔の分析を行う。
さらに,1次元バーガース方程式に対する非定常線形文脈帯域と科学機械学習(SciML)損失重み付け実験を行った。
どちらの結果も、ATLASは静的単一エージェントベースラインの安定性と性能を改善していることを示している。
関連論文リスト
- ContextEvolve: Multi-Agent Context Compression for Systems Code Optimization [8.046059974853858]
本稿では,厳密なパラメータブラインド制約の下でRLレベルの探索効率を実現するマルチエージェントフレームワークであるContextEvolveを紹介する。
ADRSベンチマークでは、ContextEvolveは最先端のベースラインを33.3%上回り、トークン消費を29.0%削減している。
論文 参考訳(メタデータ) (2026-02-01T16:50:07Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - A Multi-AI Agent System for Autonomous Optimization of Agentic AI Solutions via Iterative Refinement and LLM-Driven Feedback Loops [3.729242965449096]
本稿では,産業間におけるエージェントAIソリューションを自律的に最適化するフレームワークを提案する。
このフレームワークは、仮説を自律的に生成し、テストすることで、人間の入力なしに最適な性能を達成する。
ケーススタディでは、アウトプットの品質、妥当性、動作性が大幅に改善された。
論文 参考訳(メタデータ) (2024-12-22T20:08:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。