論文の概要: CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents
- arxiv url: http://arxiv.org/abs/2601.14914v1
- Date: Wed, 21 Jan 2026 11:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.347949
- Title: CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents
- Title(参考訳): CodeDelegator: Code-as-Action Agentのロール分離によるコンテキスト汚染の軽減
- Authors: Tianxiang Fei, Cheng Chen, Yue Pan, Mao Zheng, Mingyang Song,
- Abstract要約: 現実のタスクは、しばしば戦略的計画と詳細な実装の両方を要求する。
我々は,役割の専門化を通じて計画と実装を分離するマルチエージェントフレームワークであるCodeDelegatorを提案する。
永続的なデリゲータは、タスクを分解し、仕様を書き、コードを実行せずに進捗を監視して、戦略的監視を維持する。
- 参考スコア(独自算出の注目度): 27.450218536553447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) allow agents to represent actions as executable code, offering greater expressivity than traditional tool-calling. However, real-world tasks often demand both strategic planning and detailed implementation. Using a single agent for both leads to context pollution from debugging traces and intermediate failures, impairing long-horizon performance. We propose CodeDelegator, a multi-agent framework that separates planning from implementation via role specialization. A persistent Delegator maintains strategic oversight by decomposing tasks, writing specifications, and monitoring progress without executing code. For each sub-task, a new Coder agent is instantiated with a clean context containing only its specification, shielding it from prior failures. To coordinate between agents, we introduce Ephemeral-Persistent State Separation (EPSS), which isolates each Coder's execution state while preserving global coherence, preventing debugging traces from polluting the Delegator's context. Experiments on various benchmarks demonstrate the effectiveness of CodeDelegator across diverse scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、エージェントはアクションを実行可能なコードとして表現することができ、従来のツール呼び出しよりも表現力が高い。
しかし、現実のタスクは戦略的な計画と詳細な実装の両方を必要とすることが多い。
両方のエージェントにひとつのエージェントを使用することで、デバッグトレースや中間的障害からのコンテキスト汚染が発生し、長期的パフォーマンスが損なわれる。
我々は,役割の専門化を通じて計画と実装を分離するマルチエージェントフレームワークであるCodeDelegatorを提案する。
永続的なデリゲータは、タスクを分解し、仕様を書き、コードを実行せずに進捗を監視して、戦略的監視を維持する。
各サブタスクに対して、新しいCoderエージェントは、仕様のみを含むクリーンなコンテキストでインスタンス化され、以前の障害から保護される。
エージェント間の協調のために,グローバルコヒーレンスを維持しながら各コーダの実行状態を分離するEphemeral-Persistent State separation (EPSS)を導入する。
さまざまなベンチマークの実験では、さまざまなシナリオにわたるCodeDelegatorの有効性が示されている。
関連論文リスト
- Project Synapse: A Hierarchical Multi-Agent Framework with Hybrid Memory for Autonomous Resolution of Last-Mile Delivery Disruptions [0.0]
Project Synapseは、ラストマイル配送障害の自律的解決のために設計された新しいエージェントフレームワークである。
システムは、複雑で循環的なディスラプションシナリオを管理するためにLangGraphを使用して編成される。
論文 参考訳(メタデータ) (2026-01-13T02:38:27Z) - AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management [24.465443389008055]
AgentProgはエージェントコンテキスト管理のためのプログラム誘導型アプローチである。
インタラクション履歴を変数と制御フローを備えたプログラムとして再構成する。
AndroidWorldと拡張ロングホライゾンタスクスイートの実験では、AgentProgが最先端の成功率を達成したことが示されています。
論文 参考訳(メタデータ) (2025-12-11T07:37:38Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Context Engineering for Multi-Agent LLM Code Assistants Using Elicit, NotebookLM, ChatGPT, and Claude Code [0.0]
大規模言語モデル(LLM)は、コード生成とソフトウェアエンジニアリングタスクの自動化において有望であることを示しているが、コンテキスト制限と知識ギャップのため、複雑なマルチファイルプロジェクトに苦戦することが多い。
ユーザ要求を明確にするIntent Translator (GPT-5)、ドメイン知識を注入するElicitを利用したセマンティック文献検索、コンテキスト理解のためのNotebookLMベースの文書合成、コード生成と検証のためのClaude Codeマルチエージェントシステムなど、複数のAIコンポーネントを組み合わせた新しいコンテキストエンジニアリングワークフローを提案する。
論文 参考訳(メタデータ) (2025-08-09T14:45:53Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。