論文の概要: Curriculum Guided Massive Multi Agent System Solving For Robust Long Horizon Tasks
- arxiv url: http://arxiv.org/abs/2512.08545v1
- Date: Tue, 09 Dec 2025 12:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.956173
- Title: Curriculum Guided Massive Multi Agent System Solving For Robust Long Horizon Tasks
- Title(参考訳): ロバストな長軸タスクのためのカリキュラムガイド付き大規模マルチエージェントシステム
- Authors: Indrajit Kar, Kalathur Chenchu Kishore Kumar,
- Abstract要約: この研究は、64*64グリッドの軽量エージェントに推論を分散する階層的なマルチエージェントアーキテクチャを導入している。
空間的カリキュラムは、グリッドの操作領域を段階的に拡大し、エージェントがより難しい周辺タスクに取り組む前に、より簡単な中央タスクをマスターできるようにする。
その結果, 安定性の向上, オラクル使用量の削減, 分散エージェント協調による長距離推論の強化が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models and multi-agent systems have shown promise in decomposing complex tasks, yet they struggle with long-horizon reasoning tasks and escalating computation cost. This work introduces a hierarchical multi-agent architecture that distributes reasoning across a 64*64 grid of lightweight agents, supported by a selective oracle. A spatial curriculum progressively expands the operational region of the grid, ensuring that agents master easier central tasks before tackling harder peripheral ones. To improve reliability, the system integrates Negative Log-Likelihood as a measure of confidence, allowing the curriculum to prioritize regions where agents are both accurate and well calibrated. A Thompson Sampling curriculum manager adaptively chooses training zones based on competence and NLL-driven reward signals. We evaluate the approach on a spatially grounded Tower of Hanoi benchmark, which mirrors the long-horizon structure of many robotic manipulation and planning tasks. Results demonstrate improved stability, reduced oracle usage, and stronger long-range reasoning from distributed agent cooperation.
- Abstract(参考訳): 大規模言語モデルとマルチエージェントシステムは複雑なタスクを分解する可能性を示しているが、長い水平推論タスクと計算コストのエスカレーションに苦労している。
この研究は、64*64グリッドの軽量エージェントに推論を分散する階層的なマルチエージェントアーキテクチャを導入し、選択的なオラクルがサポートしている。
空間的カリキュラムは、グリッドの操作領域を段階的に拡大し、エージェントがより難しい周辺タスクに取り組む前に、より簡単な中央タスクをマスターできるようにする。
信頼性を向上させるため、システムは信頼度尺度として負のログライクリーフを統合し、エージェントが正確かつ適切に調整された領域を優先順位付けする。
トンプソンサンプリングカリキュラムマネージャは、能力とNLL駆動の報酬信号に基づいて、トレーニングゾーンを適応的に選択する。
我々は,多くのロボット操作・計画タスクの長い水平構造を反映した空間接地型ハノイ塔のアプローチを評価する。
その結果, 安定性の向上, オラクル使用量の削減, 分散エージェント協調による長距離推論の強化が示された。
関連論文リスト
- Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Multi-Agent Geospatial Copilots for Remote Sensing Workflows [1.8241060496411214]
GeoLLM-Squadがリモートセンシング(RS)に新しいマルチエージェントパラダイムを導入
モノリシックな大規模言語モデル(LLM)に依存している既存の単一エージェントアプローチとは異なり、GeoLLM-Squadは地理的タスク解決からエージェントオーケストレーションを分離する。
我々の研究は、都市モニタリング、森林保護、気候分析、農業研究にまたがる多様なアプリケーションのモジュラー統合を可能にする。
論文 参考訳(メタデータ) (2025-01-27T17:54:31Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。
MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。