論文の概要: EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design
- arxiv url: http://arxiv.org/abs/2605.19743v2
- Date: Wed, 27 May 2026 12:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.776298
- Title: EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design
- Title(参考訳): EngiAI: LLM駆動エンジニアリング設計のためのマルチエージェントフレームワークとベンチマークスイート
- Authors: Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge,
- Abstract要約: 3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
- 参考スコア(独自算出の注目度): 0.4499833362998488
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents are increasingly applied to engineering design tasks, yet existing evaluation frameworks do not adequately address multi-agent systems that combine simulation, retrieval, and manufacturing preparation. We introduce a benchmark suite with three evaluation dimensions: (1) a workflow benchmark with seven prompt styles targeting distinct cognitive demands-including direct tool use, semantic disambiguation, conditional branching, and working-memory tasks; (2) a Retrieval-Augmented Generation (RAG) benchmark with gated scoring isolating retrieval contributions to parameter selection; and (3) an High Performance Computing (HPC) benchmark evaluating end-to-end ML training orchestration on a SLURM cluster. Alongside the benchmark we present EngiAI, a Multi-Agent System (MAS) reference implementation built on LangGraph that operationalizes the benchmark by coordinating seven specialized agents through a supervisor architecture, unifying topology optimization, document retrieval, HPC job orchestration, and 3D printer control. Across four LLM backends and two EngiBench problems, proprietary models achieve 96-97% average task completion on Beams2D, while open-source 4B-parameter models reach 55-78%, with clear generational improvement. Conditional branching proves most challenging, with task completion dropping to 20-53% for the conditional style on Photonics2D. RAG gating confirms near-perfect retrieval-augmented scores (about 1.0) versus near-zero without retrieval, validating the evaluation design. On HPC orchestration, one model completes all pipeline steps in 100% of runs while another drops to 50%, revealing that multi-step instruction following degrades over long-running workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、エンジニアリング設計タスクにますます適用されているが、既存の評価フレームワークは、シミュレーション、検索、製造準備を組み合わせたマルチエージェントシステムに十分対応していない。
評価基準として,(1)直接ツール使用,意味的曖昧化,条件分岐,作業メモリタスクを含む,認知的要求を対象とする7つのプロンプトスタイルのワークフローベンチマーク,(2)パラメータ選択に対する検索コントリビューションを有意に評価した検索生成(RAG)ベンチマーク,(3)SLURMクラスタ上でのエンドツーエンドMLトレーニングオーケストレーションを評価するハイパフォーマンスコンピューティング(HPC)ベンチマーク,の3つを紹介した。
ベンチマークと並行して、LangGraph上に構築されたマルチエージェントシステム(MAS)リファレンス実装であるEngiAIを紹介し、スーパーバイザアーキテクチャを通じて7つの特殊エージェントを調整し、トポロジ最適化、文書検索、HPCジョブオーケストレーション、および3Dプリンタコントロールを統合することでベンチマークを運用する。
4つのLLMバックエンドと2つのEngiBench問題の中で、プロプライエタリモデルはBeams2Dで平均96-97%のタスク完了を達成した。
条件分岐は、Photonics2Dの条件付きスタイルでは、タスク補完が20~53%に低下するなど、最も難しい。
RAGゲーティングは、検索なしでほぼ完全な検索強化スコア(約1.0)とほぼゼロに近いスコアを確認し、評価設計を検証する。
HPCオーケストレーションでは、1つのモデルが100%の実行ですべてのパイプラインステップを完了し、もう1つのモデルが50%に低下する。
関連論文リスト
- Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis [3.0663322946413287]
メモリ誘導型ツリー検索フレームワークであるMEMOIRを2レベルメモリ階層で導入する。
組合せ最適化の7つの問題の中で、MEMOIRは96.7%の解の有効性を達成している。
MeMOIRのラン・トゥ・ランの妥当性標準偏差は、評価したベースライン毎の1桁以下である。
論文 参考訳(メタデータ) (2026-05-17T16:47:31Z) - Multi-Paradigm Agent Interaction in Practice:A Systematic Analysis of Generator-Evaluator, ReAct Loop,and Adversarial Evaluation in the buddyMe Framework [17.155004351157093]
本稿では,Multi-Agent Orchestration (Generator-Evaluator), ReAct Tool-Use Loops, Memory-Augmented Interactionの3つの主要なエージェントインタラクションパラダイムの系統的解析を行う。
論文 参考訳(メタデータ) (2026-05-16T05:35:50Z) - Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations [1.7102338932907293]
セキュリティ・オペレーション・センター(SOC)は運用上の課題に直面している。
これらの課題は、脅威量の増加、異種SIEMプラットフォーム、時間を要する手作業によるトリアージなどである。
本稿では,アンサンブルに基づく検出,構文制約付きクエリ生成,検索強化型解決支援を統合したエンドツーエンドの脅威管理フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T02:06:46Z) - Why Search When You Can Transfer? Amortized Agentic Workflow Design from Structural Priors [51.95306551061392]
エージェントワークフローの自動設計は、現在、タスクごとの反復検索に依存している。
本稿では,ワークフロー設計を再利用可能な構造的先入観に補正するフレームワークであるSWIFTを提案する。
SWIFTは5つのベンチマークで最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2026-04-27T21:25:00Z) - VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation [98.38575149237442]
VLAA-GUIは3つの統合コンポーネントを中心に構築されたモジュラーGUIフレームワークである。
必須完全性検証は、UIで観測可能な成功基準と検証を、各完了ステップで実施する。
強制的なループブレーカは、繰り返し失敗した後、多層切替インタラクションモードを提供する。
論文 参考訳(メタデータ) (2026-04-23T07:42:37Z) - Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration [57.23877089929136]
Graph-of-Agents (GoA)はマルチエージェントLLM通信をモデリングするための新しいグラフベースのフレームワークである。
GoAは3つの選択されたエージェントしか使用せず、最近のマルチエージェントLCMベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-18T21:13:03Z) - Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。