論文の概要: Towards Reliable Generation of Executable Workflows by Foundation Models
- arxiv url: http://arxiv.org/abs/2509.25117v1
- Date: Mon, 29 Sep 2025 17:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.17558
- Title: Towards Reliable Generation of Executable Workflows by Foundation Models
- Title(参考訳): 基礎モデルによる実行可能ワークフローの信頼性向上に向けて
- Authors: Sogol Masoumzadeh, Keheliya Gallaba, Dayi Lin, Ahmed E. Hassan,
- Abstract要約: この作業では、静的解析フィードバックを活用して、FMが生成したDSLベースの欠陥を検出し、修復することを可能にするフレームワークを導入している。
FM生成DSLにおける欠陥の頻度は,少なくとも1つの欠陥を含む研究事例の87.27%と高い。
我々は、FM生成DSL用に特別に設計された最初の静的解析器であるTimonを開発し、検出された欠陥を修復するためのFMベースのツールであるPumbaaをガイドする。
- 参考スコア(独自算出の注目度): 6.9197437493221186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Foundation Models (FMs) have demonstrated significant progress in comprehending complex natural language to perform intricate tasks. Successfully executing these tasks often requires orchestrating calls to FMs alongside other software components. However, manually decomposing a task into a coherent sequence of smaller, logically aggregated steps, commonly referred to as workflows, demands considerable effort and specialized domain knowledge. While FMs can assist in generating such workflows specified in domain-specific languages (DSLs), achieving accuracy and reliability in this process remains a challenge. This work introduces a framework that leverages static analysis feedback to enable FMs to detect and repair defects in the DSL-based workflows they generate. We begin by presenting the first-ever taxonomy of incidences of defects in FM-generated DSL workflows, categorizing them into 18 distinct types. Furthermore, we observe a high prevalence of defects across FM-generated DSL workflows, with 87.27% of the studied instances containing at least one defect. This, in turn, emphasizes the magnitude of the problem in practice and underscores the necessity for implementing mitigation strategies. Following this, we demonstrate that nine types of these defects can be effectively identified through static analysis of the workflows. For this purpose, we develop Timon, the first-of-its-kind static analyzer specifically designed for FM-generated DSL workflows. Finally, we show that by incorporating feedback from Timon, we can guide Pumbaa, an FM-based tool, to repair the detected defect incidences. By systematically detecting and repairing defects, our work provides a crucial step towards the reliable and automated generation of executable workflows from natural language requirements.
- Abstract(参考訳): 近年のファンデーションモデル(FM)の進歩は、複雑な自然言語を解釈して複雑なタスクを遂行する上で大きな進歩を見せている。
これらのタスクをうまく実行するには、FMへの呼び出しを他のソフトウェアコンポーネントと一緒にオーケストレーションする必要があることが多い。
しかしながら、手動でタスクを、ワークフローと呼ばれる、小さく論理的に集約されたステップの一貫性のあるシーケンスに分解するには、かなりの努力と専門的なドメイン知識が必要である。
FMはドメイン固有言語(DSL)で指定されたワークフローを生成するのに役立ちますが、このプロセスで正確さと信頼性を達成することは依然として課題です。
この作業では、静的解析フィードバックを活用して、FMが生成したDSLベースのワークフローの欠陥を検出し、修復することを可能にするフレームワークを導入している。
まず、FM生成DSLワークフローにおける欠陥の発生を初めて分類し、それらを18の異なるタイプに分類することから始めます。
さらに、FM生成DSLワークフローにまたがる欠陥の頻度も高く、調査対象の87.27%には少なくとも1つの欠陥が含まれている。
このことは、実際には問題の大きさを強調し、緩和戦略を実装する必要性を強調している。
次に、ワークフローの静的解析により、これらの欠陥の9つのタイプを効果的に識別できることを実証する。
この目的のために、FM生成DSLワークフロー用に特別に設計された、第1世代の静的アナライザであるTimonを開発した。
最後に、Timonからのフィードバックを取り入れることで、FMベースのツールであるPumbaaをガイドして、検出された欠陥発生を修復できることを示す。
欠陥を体系的に検出し、修復することにより、自然言語の要求から実行可能なワークフローを信頼できる自動生成するための重要なステップを提供します。
関連論文リスト
- STAR: A Foundation Model-driven Framework for Robust Task Planning and Failure Recovery in Robotic Systems [5.426894918217948]
STAR(Smart Task Adaptation and Recovery)は、ファンデーションモデル(FM)と動的に拡張された知識グラフ(KG)を相乗化する新しいフレームワークである。
FMは目覚ましい一般化と文脈推論を提供するが、その制限は信頼性を損なう。
その結果,STARは86%のタスク計画精度と78%のリカバリ成功率を示し,ベースライン法よりも有意な改善を示した。
論文 参考訳(メタデータ) (2025-03-08T05:05:21Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。