論文の概要: Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study
- arxiv url: http://arxiv.org/abs/2506.13811v1
- Date: Fri, 13 Jun 2025 23:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.160734
- Title: Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study
- Title(参考訳): 基礎設計自動化のための大規模言語モデルベースルータマルチエージェントアーキテクチャの可能性を探る:タスク分類とエキスパート選択研究
- Authors: Sompote Youwai, David Phim, Vianne Gayl Murcia, Rianne Clair Onas,
- Abstract要約: シングルエージェント処理、マルチエージェントデザイナ-チェッカーアーキテクチャ、ルータベースのエキスパートセレクションの3つのアプローチが評価された。
性能評価はDeepSeek R1、ChatGPT 4 Turbo、Grok 3、Gemini 2.5 Proといったベースラインモデルを利用した。
その結果、ルータベースのマルチエージェントシステムは、プロのドキュメント標準を維持しつつ、基礎設計の自動化に最適なものとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates router-based multi-agent systems for automating foundation design calculations through intelligent task classification and expert selection. Three approaches were evaluated: single-agent processing, multi-agent designer-checker architecture, and router-based expert selection. Performance assessment utilized baseline models including DeepSeek R1, ChatGPT 4 Turbo, Grok 3, and Gemini 2.5 Pro across shallow foundation and pile design scenarios. The router-based configuration achieved performance scores of 95.00% for shallow foundations and 90.63% for pile design, representing improvements of 8.75 and 3.13 percentage points over standalone Grok 3 performance respectively. The system outperformed conventional agentic workflows by 10.0 to 43.75 percentage points. Grok 3 demonstrated superior standalone performance without external computational tools, indicating advances in direct LLM mathematical reasoning for engineering applications. The dual-tier classification framework successfully distinguished foundation types, enabling appropriate analytical approaches. Results establish router-based multi-agent systems as optimal for foundation design automation while maintaining professional documentation standards. Given safety-critical requirements in civil engineering, continued human oversight remains essential, positioning these systems as advanced computational assistance tools rather than autonomous design replacements in professional practice.
- Abstract(参考訳): 本研究では,知的タスク分類とエキスパート選択による基礎設計計算を自動化するルータベースのマルチエージェントシステムについて検討する。
シングルエージェント処理、マルチエージェントデザイナ-チェッカーアーキテクチャ、ルータベースのエキスパートセレクションの3つのアプローチが評価された。
性能評価では、DeepSeek R1、ChatGPT 4 Turbo、Grok 3、Gemini 2.5 Proといったベースラインモデルを、浅い基礎と杭の設計シナリオで活用した。
ルータベースの構成では、浅い基礎では95.00%、杭設計では90.63%のパフォーマンススコアが達成され、それぞれ独立したGrok 3よりも8.75ポイントと3.13ポイント向上した。
このシステムは従来のエージェントワークフローを10.0から43.75ポイント上回った。
Grok 3 は外部の計算ツールを使わずに優れたスタンドアロン性能を示し、工学的応用のための直接 LLM の数学的推論の進歩を示している。
二重層分類フレームワークは、適切な分析アプローチを可能にするため、基礎タイプを区別することに成功している。
その結果、ルータベースのマルチエージェントシステムは、プロのドキュメント標準を維持しつつ、基礎設計の自動化に最適なものとなった。
土木工学における安全性に欠かせない要件を考えれば、継続する人間の監視は依然として不可欠であり、これらのシステムは専門的な実践において自律的な設計の代替ではなく、高度な計算支援ツールとして位置づけられている。
関連論文リスト
- AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Archon: An Architecture Search Framework for Inference-Time Techniques [31.655124464284523]
Archonは推論時テクニックと大規模言語モデルの選択と組み合わせのためのフレームワークである。
計算予算が与えられたArchonは、ターゲットベンチマークに適した最適化された設定を見つけるために、大規模な設計スペースを探索する。
本稿では,OpenAIのo1, GPT-4o, Claude 3.5 Sonnetなどのフロンティアモデルよりも平均15.1%優れた設計システムに,新たな推論計算予算を利用できることを示す。
論文 参考訳(メタデータ) (2024-09-23T17:53:42Z) - From Requirements to Architecture: An AI-Based Journey to
Semi-Automatically Generate Software Architectures [2.4150871564195007]
本稿では,人工知能技術を用いた要件に基づくソフトウェアアーキテクチャ候補生成手法を提案する。
さらに、生成したアーキテクチャ候補の自動評価とトレードオフ分析を計画する。
論文 参考訳(メタデータ) (2024-01-25T10:56:58Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image
and Time Series Classification [8.190723030003804]
本稿では、異なるハードウェア環境と複数の分類タスクを対象とした逐次モデルベースNASアルゴリズムの第3版について述べる。
提案手法は,異なるタスクに適応するフレキシブルな構造とデータ処理パイプラインを維持しながら,大規模な検索空間内で競合するアーキテクチャを見つけることができる。
画像と時系列の分類データセットで実施された実験は、POPNASv3が多種多様な演算子を探索し、異なるシナリオで提供されるデータの種類に適した最適なアーキテクチャに収束できることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。