論文の概要: Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation
- arxiv url: http://arxiv.org/abs/2502.19091v1
- Date: Wed, 26 Feb 2025 12:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:31.220620
- Title: Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation
- Title(参考訳): Nexus: 複雑なタスク自動化のための軽量でスケーラブルなマルチエージェントフレームワーク
- Authors: Humza Sami, Mubashir ul Islam, Samy Charas, Asav Gandhi, Pierre-Emmanuel Gaillardon, Valerio Tenace,
- Abstract要約: マルチエージェントシステム(MAS)を簡単に構築および管理できるように設計されたPythonフレームワークであるNexusを紹介します。
ここでは,Nexus駆動のMASがHumanEvalで99%,VerilogEval-Humanで100%であることを示す。
これらのアーキテクチャは、複雑な推論と数学的問題解決において堅牢な習熟度を示す。
- 参考スコア(独自算出の注目度): 0.6560382312183772
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have substantially evolved Multi-Agent Systems (MASs) capabilities, enabling systems that not only automate tasks but also leverage near-human reasoning capabilities. To achieve this, LLM-based MASs need to be built around two critical principles: (i) a robust architecture that fully exploits LLM potential for specific tasks -- or related task sets -- and ($ii$) an effective methodology for equipping LLMs with the necessary capabilities to perform tasks and manage information efficiently. It goes without saying that a priori architectural designs can limit the scalability and domain adaptability of a given MAS. To address these challenges, in this paper we introduce Nexus: a lightweight Python framework designed to easily build and manage LLM-based MASs. Nexus introduces the following innovations: (i) a flexible multi-supervisor hierarchy, (ii) a simplified workflow design, and (iii) easy installation and open-source flexibility: Nexus can be installed via pip and is distributed under a permissive open-source license, allowing users to freely modify and extend its capabilities. Experimental results demonstrate that architectures built with Nexus exhibit state-of-the-art performance across diverse domains. In coding tasks, Nexus-driven MASs achieve a 99% pass rate on HumanEval and a flawless 100% on VerilogEval-Human, outperforming cutting-edge reasoning language models such as o3-mini and DeepSeek-R1. Moreover, these architectures display robust proficiency in complex reasoning and mathematical problem solving, achieving correct solutions for all randomly selected problems from the MATH dataset. In the realm of multi-objective optimization, Nexus-based architectures successfully address challenging timing closure tasks on designs from the VTR benchmark suite, while guaranteeing, on average, a power saving of nearly 30%.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、タスクの自動化だけでなく、人間に近い推論能力も活用できるようなマルチエージェントシステム(MAS)の機能を大幅に進化させてきた。
これを実現するには、LLMベースのMASを2つの重要な原則に基づいて構築する必要がある。
(i)特定のタスク -- あるいは関連するタスクセット -- に対して LLM の可能性を完全に活用する堅牢なアーキテクチャであり、(ii$) タスクを実行し、情報を効率的に管理するために必要な機能を LLM に装備するための効果的な方法論である。
先進的なアーキテクチャ設計が、与えられたMASのスケーラビリティとドメイン適応性を制限することは言うまでもない。
これらの課題に対処するために、本稿では、LLMベースのMASを簡単に構築および管理できるように設計された軽量PythonフレームワークであるNexusを紹介します。
Nexusは以下のイノベーションを導入している。
(i)柔軟なマルチスーパーバイザ階層。
(二)簡易なワークフロー設計、及び
(iii)簡単なインストールとオープンソースの柔軟性: Nexusはpip経由でインストールでき、パーミッシブなオープンソースライセンスの下で配布される。
実験の結果、Nexusで構築されたアーキテクチャは、様々な領域で最先端のパフォーマンスを示すことがわかった。
コーディングタスクでは、Nexus駆動のMASがHumanEvalで99%、VerilogEval-Humanで100%を達成し、o3-miniやDeepSeek-R1といった最先端の推論言語モデルを上回っている。
さらに、これらのアーキテクチャは複雑な推論と数学的問題解決において堅牢な習熟度を示し、MATHデータセットからランダムに選択された全ての問題に対して正しい解を得る。
マルチオブジェクト最適化の分野では、Nexusベースのアーキテクチャは、VTRベンチマークスイートの設計上の挑戦的なタイミングクロージャタスクに対処し、平均して30%近い省電力を保証している。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。