論文の概要: Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.15573v1
- Date: Fri, 15 May 2026 03:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.159887
- Title: Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムのための応答記述型並列-逐次オーケストレーション
- Authors: Nurbek Tastan, Alex Iacob, Lorenzo Sani, Meghdad Kurmanji, Nicholas D. Lane, Samuel Horvath, Karthik Nandakumar,
- Abstract要約: マルチエージェントシステムは、複数の大規模言語モデルエージェント間の協調によって複雑なタスクを解決できる。
既存のコラボレーションフレームワークは、並列モードまたはシーケンシャルモードで動作する。
両モード間のギャップを埋める訓練可能な応答条件ポリシーを導入する。
- 参考スコア(独自算出の注目度): 32.54325997105732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-agent systems can solve complex tasks through collaboration between multiple Large Language Model agents. Existing collaboration frameworks typically operate in either a parallel or a sequential mode. In the parallel mode, agents respond independently to queries followed by aggregation of responses. In contrast, sequential systems allow agents to communicate via a directed topology and refine one another step by step. However, both modes are inadequate for achieving the desired objectives of minimizing communication and latency while simultaneously maximizing the accuracy of the final response. In this work, we introduce a hybrid paradigm called Nexa, a trainable response-conditioned policy that bridges the gap between the two modes. Nexa begins with a parallel execution stage, embeds the resulting responses into a shared semantic space, and then predicts a sparse directed acyclic communication graph. If the graph is empty, the system remains purely parallel; if it is non-empty, the system performs one sequential message propagation. The policy is a lightweight transformer model, and the method avoids the need for external LLM judges or reward models, as well as hand-crafted test-time topology search. We formalize this hybrid execution problem, show that the resulting graph is acyclic by construction, and that the framework strictly subsumes pure parallel execution, and present a training procedure based on policy-gradient optimization. Results demonstrate that the response-conditioned policy learned by Nexa under one setting can be reused when the number of agents, the task, or the underlying agent changes, thus emphasizing the generalizability of the learned communication policy.
- Abstract(参考訳): マルチエージェントシステムは、複数の大規模言語モデルエージェント間の協調によって複雑なタスクを解決できる。
既存のコラボレーションフレームワークは通常、並列モードまたはシーケンシャルモードで動作します。
並列モードでは、エージェントはクエリに独立して応答し、その後レスポンスの集約を行う。
対照的に、シーケンシャルシステムでは、エージェントが有向トポロジーを介して通信し、ステップごとに互いに洗練することができる。
しかし、両モードは通信とレイテンシを最小化し、最終応答の精度を最大化する目的を達成するには不十分である。
本研究では2つのモード間のギャップを埋める訓練可能な応答条件ポリシーであるNexaというハイブリッドパラダイムを導入する。
Nexaは並列実行段階から始まり、結果のレスポンスを共有セマンティック空間に埋め込んで、スパース指向の非循環通信グラフを予測する。
グラフが空である場合、システムは純粋に並列であり、空でない場合、システムは1つのシーケンシャルなメッセージ伝搬を実行する。
ポリシーは軽量なトランスフォーマーモデルであり、この方法は、手作りのテスト時間トポロジー探索だけでなく、外部のLCM審査員や報酬モデルの必要性を回避する。
本稿では、このハイブリッド実行問題を形式化し、結果のグラフが構築によって非循環であることを示し、フレームワークが純粋並列実行を厳密に仮定し、ポリシー段階の最適化に基づくトレーニング手順を示す。
その結果、Nexaが1つの設定下で学んだ応答条件付きポリシーは、エージェント数、タスク数、あるいは基礎となるエージェント数が変化したときに再利用可能であることが示され、学習された通信ポリシーの一般化性を強調している。
関連論文リスト
- TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems [55.81570336226014]
動的マルチエージェントシステムのためのテスト時間共進化フレームワークであるTacoMASを紹介する。
TacoMASはMAS推論をオンライングラフ適応のタスクとして定式化し、ノードは役割固有の能力を持つエージェントを表し、エッジはその通信トポロジを定義する。
4つのベンチマークの実験では、TacoMASは20近いマルチエージェントベースラインを上回り、最強ベースラインよりも平均13.3%向上した。
論文 参考訳(メタデータ) (2026-05-10T13:52:00Z) - Contextual Plackett-Luce: An Efficient Neural Model for Probabilistic Sequence Selection under Ambiguity [4.162695034027842]
コンテキストプラケット・リュック(Contextual Plackett-Luce)は、配列選択のための構造化確率モデルである。
完全自己回帰予測と並列シーケンス選択のハイブリッドと見なすことができる。
強い平行基線に比べて構造整合性を改善し、曖昧な監督を受ける。
論文 参考訳(メタデータ) (2026-05-09T18:52:53Z) - Small Model as Master Orchestrator: Learning Unified Agent-Tool Orchestration with Parallel Subtask Decomposition [61.291733522717415]
Agent-as-Toolは並列オーケストレーションのパラダイムであり、エージェントとツールの両方を標準化された学習可能なアクション空間に緩和する。
ParaManagerは、サブタスク解決から計画決定を分離し、ステート対応の並列サブタスク分解、デリゲート、非同期実行を可能にする。
実験により、ParaManagerは複数のベンチマークで高い性能を示し、目に見えないモデルプールの下で堅牢な一般化を示す。
論文 参考訳(メタデータ) (2026-04-18T14:41:27Z) - MetaGen: Self-Evolving Roles and Topologies for Multi-Agent LLM Reasoning [11.023742160114763]
推論時に役割空間とコラボレーショントポロジの両方を適応させる、トレーニング不要のフレームワークであるMetaGenを紹介します。
MetaGenは、強力なマルチエージェントベースラインに対する精度とコストのトレードオフを改善する。
論文 参考訳(メタデータ) (2026-01-27T07:24:35Z) - Self-Manager: Parallel Agent Loop for Long-form Deep Research [33.21617483821564]
本稿では,非同期および並列実行が可能な並列エージェントループであるSelf-Managerを紹介する。
メインスレッドは複数のサブスレッドを生成し、それぞれが独立したコンテキストを持ち、Thread Control Blocksを通じて反復的に管理することができる。
DeepResearch BenchでSelf-Managerをベンチマークしました。
論文 参考訳(メタデータ) (2026-01-25T15:18:53Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。