論文の概要: Workspace Optimization: How to Train Your Agent
- arxiv url: http://arxiv.org/abs/2605.09650v1
- Date: Sun, 10 May 2026 16:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.350394
- Title: Workspace Optimization: How to Train Your Agent
- Title(参考訳): ワークスペース最適化:エージェントのトレーニング方法
- Authors: Elad Sarafian, Gal Kaplun, Ron Banner, Daniel Soudry, Boris Ginsburg,
- Abstract要約: 我々はエージェントのEmphworkspaceであり、それが読み取り、書き込み、テストする構造化された外部基質であると主張している。
本稿では,重み空間トレーニングの構造を反映して,作業空間を進化させる原理的手法を提案する。
ARC-AGI-3のマルチエージェントハーネスであるDreamTeamのアイデアをインスタンス化する。
- 参考スコア(独自算出の注目度): 49.579258311548635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern agents built on frontier language models often cannot adapt their weights. What, then, remains trainable? We argue it is the agent's \emph{workspace}, the structured external substrate it reads, writes, and tests; we call its evolution workspace optimization. Workspace optimization targets hard multi-turn environments where a frontier model has strong priors but cannot solve the task in a single shot, so the agent must learn through interaction. We propose a principled way to evolve the workspace, mirroring the structure of weight-space training: artifacts in place of parameters, evidence in place of data, counterexamples in place of losses, and textual feedback in place of gradients. We instantiate the idea in DreamTeam, a multi-agent harness for ARC-AGI-3 whose roles build an executable world model, plan, hypothesize, probe, strategize, and route failures. On the current 25-game ARC-AGI-3 public set under the official scoring protocol and averaged over two independent runs, DreamTeam improves the SOTA protocol-matched agent's score from 36% to 38.4%, while using 31% fewer environment actions per game.
- Abstract(参考訳): フロンティア言語モデル上に構築された現代のエージェントは、しばしばその重みに適応できない。
それでは、何がトレーニング可能か?
エージェントの \emph{workspace} は、それが読み取り、書き込み、テストする構造化外部基質であり、進化ワークスペース最適化と呼ばれる。
ワークスペース最適化は、フロンティアモデルに強い先行性があるが、1ショットでそのタスクを解決できないハードなマルチターン環境をターゲットにしているため、エージェントはインタラクションを通じて学ぶ必要がある。
作業空間を進化させる方法として,パラメータの代わりにアーティファクト,データの代わりにエビデンス,損失に代えて反例,勾配に代えてテキストフィードバックなど,重み空間トレーニングの構造を反映する手法を提案する。
私たちは、ARC-AGI-3のマルチエージェントハーネスであるDreamTeamのアイデアをインスタンス化します。
現在の25ゲームARC-AGI-3公開セットでは、DreamTeamはSOTAプロトコルに適合するエージェントのスコアを36%から38.4%に改善し、ゲーム当たりの環境アクションを31%削減した。
関連論文リスト
- AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Grammarization-Based Grasping with Deep Multi-Autoencoder Latent Space Exploration by Reinforcement Learning Agent [0.0]
本稿では,高次元の目標とグリップの特徴を圧縮するアイデアに基づく,ロボットグルーピングのための新しいフレームワークを提案する。
提案手法は,対象とグリップに専用の3つのオートエンコーダと,その潜在表現を融合させる第3のオートエンコーダを用いて,把握を簡略化する。
論文 参考訳(メタデータ) (2024-11-13T12:26:08Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。
MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。