論文の概要: Adaptive Multi-Agent Reasoning via Automated Workflow Generation
- arxiv url: http://arxiv.org/abs/2507.14393v1
- Date: Fri, 18 Jul 2025 22:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.872305
- Title: Adaptive Multi-Agent Reasoning via Automated Workflow Generation
- Title(参考訳): 自動ワークフロー生成による適応型マルチエージェント推論
- Authors: Humza Sami, Mubashir ul Islam, Pierre-Emmanuel Gaillardon, Valerio Tenace,
- Abstract要約: 大きな推論モデル(LRM)は、前例のない効率と正確さで、より洗練されたタスクに取り組むことを約束する。
最近の研究では、現在の推論モデルが新しい、目に見えない問題に一般化できないことが強調されている。
本稿では,新しい自動化ワークフロー機構を備えた多エージェントシステムフレームワークであるNexus Architectを紹介する。
- 参考スコア(独自算出の注目度): 0.7831852829409273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Reasoning Models (LRMs) promises a significant leap forward in language model capabilities, aiming to tackle increasingly sophisticated tasks with unprecedented efficiency and accuracy. However, despite their impressive performance, recent studies have highlighted how current reasoning models frequently fail to generalize to novel, unseen problems, often resorting to memorized solutions rather than genuine inferential reasoning. Such behavior underscores a critical limitation in modern LRMs, i.e., their tendency toward overfitting, which in turn results in poor generalization in problem-solving capabilities. In this paper, we introduce Nexus Architect, an enhanced iteration of our multi-agent system framework, Nexus, equipped with a novel automated workflow synthesis mechanism. Given a user's prompt and a small set of representative examples, the Architect autonomously generates a tailored reasoning workflow by selecting suitable strategies, tool integrations, and adversarial techniques for a specific problem class. Furthermore, the Architect includes an iterative prompt refinement mechanism that fine-tunes agents' system prompts to maximize performance and improve the generalization capabilities of the system. We empirically evaluate Nexus Architect by employing an off-the-shelf, non-reasoning model on a custom dataset of challenging logical questions and compare its performance against state-of-the-art LRMs. Results show that Nexus Architect consistently outperforms existing solutions, achieving up to a 66% increase in pass rate over Gemini 2.5 Flash Preview, nearly 2.5$\times$ against Claude Sonnet 4 and DeepSeek-R1, and over 3$\times$ w.r.t. Llama 4 Scout.
- Abstract(参考訳): LRM(Large Reasoning Models)の台頭は、前例のない効率と精度で、ますます高度なタスクに取り組むことを目的として、言語モデル能力の飛躍的な飛躍を約束している。
しかし、その印象的な性能にもかかわらず、最近の研究では、現在の推論モデルが、真に推論された推論よりも記憶された解に頼って、新しい、目に見えない問題に一般化できないことが強調されている。
このような振る舞いは、現代のLRMにおいて重要な限界、すなわち過度に適合する傾向を浮き彫りにしており、結果として問題解決能力の一般化は不十分である。
本稿では,新しい自動ワークフロー合成機構を備えた多エージェントシステムフレームワークであるNexus Architectを紹介する。
ユーザのプロンプトといくつかの代表例が与えられた場合、アーキテクトは、特定の問題クラスに対して適切な戦略、ツールの統合、および敵対的テクニックを選択することで、自律的に調整された推論ワークフローを生成する。
さらに、アーキテクチャには、ファインチューニングエージェントのシステムがパフォーマンスを最大化し、システムの一般化能力を改善するための反復的なプロンプトリファインメント機構が含まれている。
われわれはNexus Architectを、難解な論理的質問のカスタムデータセット上に、既製の非推論モデルを用いて実証的に評価し、その性能を最先端のLEMと比較した。
その結果、Nexus Architectは既存のソリューションを一貫して上回り、Gemini 2.5 Flash Previewの66%、Claude Sonnet 4とDeepSeek-R1の2.5ドル近く、そして3$\times$w.r.t.Llama 4 Scoutよりもパスレートが向上した。
関連論文リスト
- Hierarchical Reasoning Model [16.223136644998203]
HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-26T19:39:54Z) - Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。
W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。
経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文 参考訳(メタデータ) (2025-04-07T07:27:31Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Gatekeeper: Improving Model Cascades Through Confidence Tuning [42.1160183944637]
カスケード構成の小型モデルを校正するための新しい損失関数「ゲートキーパー」を導入する。
我々のアプローチは、より小さなモデルを微調整して、より大規模なモデルに複雑なタスクを遅延させながら、正しく実行できるタスクを確実に処理する。
論文 参考訳(メタデータ) (2025-02-26T17:29:08Z) - Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation [0.6560382312183772]
マルチエージェントシステム(MAS)を簡単に構築および管理できるように設計されたPythonフレームワークであるNexusを紹介します。
ここでは,Nexus駆動のMASがHumanEvalで99%,VerilogEval-Humanで100%であることを示す。
これらのアーキテクチャは、複雑な推論と数学的問題解決において堅牢な習熟度を示す。
論文 参考訳(メタデータ) (2025-02-26T12:37:47Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。