論文の概要: Agentic Large Language Models for Conceptual Systems Engineering and Design
- arxiv url: http://arxiv.org/abs/2507.08619v1
- Date: Fri, 11 Jul 2025 14:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.384306
- Title: Agentic Large Language Models for Conceptual Systems Engineering and Design
- Title(参考訳): 概念システム工学と設計のためのエージェント型大規模言語モデル
- Authors: Soheyl Massoudi, Mark Fuge,
- Abstract要約: 初期のエンジニアリング設計は複雑で反復的な推論を伴うが、既存の大規模言語モデル(LLM)はタスク継続性を維持し、モデルを生成するのに苦労している。
構造化マルチエージェントシステム(MAS)が、より単純な2エージェントシステム(2AS)よりも要求抽出、分解、シミュレータコード生成をより効果的に管理できるかどうかを評価する。
本稿では,要求,具体化,Pythonベースの物理モデルをグラフノードにバンドルする関数表現であるDesign-State Graph(DSG)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Early-stage engineering design involves complex, iterative reasoning, yet existing large language model (LLM) workflows struggle to maintain task continuity and generate executable models. We evaluate whether a structured multi-agent system (MAS) can more effectively manage requirements extraction, functional decomposition, and simulator code generation than a simpler two-agent system (2AS). The target application is a solar-powered water filtration system as described in a cahier des charges. We introduce the Design-State Graph (DSG), a JSON-serializable representation that bundles requirements, physical embodiments, and Python-based physics models into graph nodes. A nine-role MAS iteratively builds and refines the DSG, while the 2AS collapses the process to a Generator-Reflector loop. Both systems run a total of 60 experiments (2 LLMs - Llama 3.3 70B vs reasoning-distilled DeepSeek R1 70B x 2 agent configurations x 3 temperatures x 5 seeds). We report a JSON validity, requirement coverage, embodiment presence, code compatibility, workflow completion, runtime, and graph size. Across all runs, both MAS and 2AS maintained perfect JSON integrity and embodiment tagging. Requirement coverage remained minimal (less than 20\%). Code compatibility peaked at 100\% under specific 2AS settings but averaged below 50\% for MAS. Only the reasoning-distilled model reliably flagged workflow completion. Powered by DeepSeek R1 70B, the MAS generated more granular DSGs (average 5-6 nodes) whereas 2AS mode-collapsed. Structured multi-agent orchestration enhanced design detail. Reasoning-distilled LLM improved completion rates, yet low requirements and fidelity gaps in coding persisted.
- Abstract(参考訳): 初期のエンジニアリング設計は複雑で反復的な推論を伴うが、既存の大規模言語モデル(LLM)ワークフローはタスク継続性を維持し、実行可能なモデルを生成するのに苦労する。
構造化マルチエージェントシステム (MAS) が, より単純な2エージェントシステム (2AS) よりも要求抽出, 機能分解, シミュレータコード生成をより効果的に管理できるかどうかを評価する。
ターゲットとなる用途は、カヒエ・デ・チャージ(英語版)に記載されている太陽エネルギーによる水濾過システムである。
我々は、要求、物理エンボディメント、Pythonベースの物理モデルをグラフノードにバンドルするJSONシリアライズ可能な表現であるDesign-State Graph(DSG)を紹介した。
9ロールのMASはDSGを反復的にビルドして精製し、2ASはジェネレータ・リフレクタループに分解する。
どちらのシステムも合計60の実験(Llama 3.3 70B対DeepSeek R1 70B x 2エージェント構成 x 3 temperature x 5 seeds)を行っている。
JSONの有効性、要件カバレッジ、実施状況、コード互換性、ワークフロー補完、ランタイム、グラフサイズを報告します。
すべての実行において、MASと2ASは完全なJSON整合性とエボディメントのタグ付けを維持していた。
要件カバレッジは最小限 (20 %未満) にとどまった。
コード互換性は2AS設定で100\%まで上昇したが、MASでは平均50\%以下であった。
推論蒸留されたモデルのみがワークフローの完了を確実にフラグ付けした。
DeepSeek R1 70Bによって、MASはより粒度の細かいDSG(平均5-6ノード)を生成し、一方2ASモードは崩壊した。
構造化マルチエージェントオーケストレーションにより設計の詳細が強化された。
LLMは完了率を向上したが、コーディングの低要件と忠実さのギャップは持続した。
関連論文リスト
- SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - FlowReasoner: Reinforcing Query-Level Meta-Agents [63.602173107171076]
本稿では,クエリレベルのマルチエージェントシステムの設計を自動化するために,FlowReasonerというクエリレベルのメタエージェントを提案する。
私たちの中核的な考え方は、外部の実行フィードバックを通じて推論ベースのメタエージェントをインセンティブ化することです。
論文 参考訳(メタデータ) (2025-04-21T17:35:42Z) - Fine-tuning a Large Language Model for Automating Computational Fluid Dynamics Simulations [11.902947290205645]
大規模言語モデル(LLM)は高度な科学計算を持ち、CFDでの使用は自動化されている。
ドメイン固有LLM適応に着目した新しいアプローチを提案する。
マルチエージェントフレームワークはプロセスをオーケストレーションし、入力を自律的に検証し、構成を生成し、シミュレーションを実行し、エラーを修正する。
論文 参考訳(メタデータ) (2025-04-13T14:35:30Z) - Why Personalizing Deep Learning-Based Code Completion Tools Matters [55.39571645315926]
2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、3つのモデルサイズ(60M、750M、および7Bのトレーニング可能なパラメータ)を考える。
Code Llamaモデル(7B)では、すでにトレーニング済みのモデルのパフォーマンスをオンラインで公開し、同じモデルを組織や開発者固有のデータセットに基づいて微調整しました。
以上の結果から,組織別および開発者別追加微調整による予測能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-03-18T12:26:06Z) - Transducer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs [8.26418657158164]
アプローチは、コードプロパティグラフ(CPG)を使用して下流のコードタスクに大規模なモデルを適用するテクニックである。
我々のアプローチではTransducerと呼ばれるモジュラーコンポーネントを導入し、CPGからの構造化情報と依存性情報によってコード埋め込みを強化します。
その結果,最大99%のトレーニング可能なパラメータを削減し,最大99%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2024-12-18T03:25:17Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Coding by Design: GPT-4 empowers Agile Model Driven Development [0.03683202928838613]
この研究は、アジャイルモデル駆動開発(MDD)アプローチを提供し、OpenAIのGPT-4を使ってコードの自動生成を強化する。
私たちの研究は、現行のMDDメソッドへの重要な貢献として"アジリティ"を強調しています。
最終的に、GPT-4を利用して、最後のレイヤはJavaとPythonの両方でコードを自動生成します。
論文 参考訳(メタデータ) (2023-10-06T15:05:05Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。