論文の概要: Towards Reliable Generation of Executable Workflows by Foundation Models
- arxiv url: http://arxiv.org/abs/2509.25117v1
- Date: Mon, 29 Sep 2025 17:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.17558
- Title: Towards Reliable Generation of Executable Workflows by Foundation Models
- Title(参考訳): 基礎モデルによる実行可能ワークフローの信頼性向上に向けて
- Authors: Sogol Masoumzadeh, Keheliya Gallaba, Dayi Lin, Ahmed E. Hassan,
- Abstract要約: この作業では、静的解析フィードバックを活用して、FMが生成したDSLベースの欠陥を検出し、修復することを可能にするフレームワークを導入している。
FM生成DSLにおける欠陥の頻度は,少なくとも1つの欠陥を含む研究事例の87.27%と高い。
我々は、FM生成DSL用に特別に設計された最初の静的解析器であるTimonを開発し、検出された欠陥を修復するためのFMベースのツールであるPumbaaをガイドする。
- 参考スコア(独自算出の注目度): 6.9197437493221186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Foundation Models (FMs) have demonstrated significant progress in comprehending complex natural language to perform intricate tasks. Successfully executing these tasks often requires orchestrating calls to FMs alongside other software components. However, manually decomposing a task into a coherent sequence of smaller, logically aggregated steps, commonly referred to as workflows, demands considerable effort and specialized domain knowledge. While FMs can assist in generating such workflows specified in domain-specific languages (DSLs), achieving accuracy and reliability in this process remains a challenge. This work introduces a framework that leverages static analysis feedback to enable FMs to detect and repair defects in the DSL-based workflows they generate. We begin by presenting the first-ever taxonomy of incidences of defects in FM-generated DSL workflows, categorizing them into 18 distinct types. Furthermore, we observe a high prevalence of defects across FM-generated DSL workflows, with 87.27% of the studied instances containing at least one defect. This, in turn, emphasizes the magnitude of the problem in practice and underscores the necessity for implementing mitigation strategies. Following this, we demonstrate that nine types of these defects can be effectively identified through static analysis of the workflows. For this purpose, we develop Timon, the first-of-its-kind static analyzer specifically designed for FM-generated DSL workflows. Finally, we show that by incorporating feedback from Timon, we can guide Pumbaa, an FM-based tool, to repair the detected defect incidences. By systematically detecting and repairing defects, our work provides a crucial step towards the reliable and automated generation of executable workflows from natural language requirements.
- Abstract(参考訳): 近年のファンデーションモデル(FM)の進歩は、複雑な自然言語を解釈して複雑なタスクを遂行する上で大きな進歩を見せている。
これらのタスクをうまく実行するには、FMへの呼び出しを他のソフトウェアコンポーネントと一緒にオーケストレーションする必要があることが多い。
しかしながら、手動でタスクを、ワークフローと呼ばれる、小さく論理的に集約されたステップの一貫性のあるシーケンスに分解するには、かなりの努力と専門的なドメイン知識が必要である。
FMはドメイン固有言語(DSL)で指定されたワークフローを生成するのに役立ちますが、このプロセスで正確さと信頼性を達成することは依然として課題です。
この作業では、静的解析フィードバックを活用して、FMが生成したDSLベースのワークフローの欠陥を検出し、修復することを可能にするフレームワークを導入している。
まず、FM生成DSLワークフローにおける欠陥の発生を初めて分類し、それらを18の異なるタイプに分類することから始めます。
さらに、FM生成DSLワークフローにまたがる欠陥の頻度も高く、調査対象の87.27%には少なくとも1つの欠陥が含まれている。
このことは、実際には問題の大きさを強調し、緩和戦略を実装する必要性を強調している。
次に、ワークフローの静的解析により、これらの欠陥の9つのタイプを効果的に識別できることを実証する。
この目的のために、FM生成DSLワークフロー用に特別に設計された、第1世代の静的アナライザであるTimonを開発した。
最後に、Timonからのフィードバックを取り入れることで、FMベースのツールであるPumbaaをガイドして、検出された欠陥発生を修復できることを示す。
欠陥を体系的に検出し、修復することにより、自然言語の要求から実行可能なワークフローを信頼できる自動生成するための重要なステップを提供します。
関連論文リスト
- Learning to Compose for Cross-domain Agentic Workflow Generation [56.630382886594184]
クロスドメインワークフロー生成のためのオープンソースのLLMを作成します。
さまざまなドメインにわたる再利用可能なワークフロー機能のコンパクトなセットを学びます。
当社の1パスジェネレータは、20イテレーションを消費するSOTAリファインメントベースラインを超えています。
論文 参考訳(メタデータ) (2026-02-11T18:27:22Z) - Fault Cause Identification across Manufacturing Lines through Ontology-Guided and Process-Aware FMEA Graph Learning with LLMs [1.9563024477582351]
本研究では,製造領域の概念化とグラフニューラルネットワーク(GNN)推論を組み合わせることにより,FMEA再利用性を高めるプロセス認識フレームワークを提案する。
自動車用圧力センサ組立ラインのケーススタディでは,提案手法が最先端の検索強化生成(RAG)ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-10-17T08:35:47Z) - Testing and Enhancing Multi-Agent Systems for Robust Code Generation [21.38351747327572]
自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-12T05:45:04Z) - Fine-Tuning Flow Matching via Maximum Likelihood Estimation of Reconstructions [20.26227575771028]
フローマッチング(FM)アルゴリズムは、特にロボット操作において、生成タスクにおいて顕著な結果をもたらす。
本稿では,FMにおけるトレーニング損失と推論誤差の関係を理論的に解析する。
そこで本研究では,再構成の最大精度推定によるFM微調整手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T14:49:47Z) - STAR: A Foundation Model-driven Framework for Robust Task Planning and Failure Recovery in Robotic Systems [5.426894918217948]
STAR(Smart Task Adaptation and Recovery)は、ファンデーションモデル(FM)と動的に拡張された知識グラフ(KG)を相乗化する新しいフレームワークである。
FMは目覚ましい一般化と文脈推論を提供するが、その制限は信頼性を損なう。
その結果,STARは86%のタスク計画精度と78%のリカバリ成功率を示し,ベースライン法よりも有意な改善を示した。
論文 参考訳(メタデータ) (2025-03-08T05:05:21Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。