論文の概要: WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics
- arxiv url: http://arxiv.org/abs/2602.17990v1
- Date: Fri, 20 Feb 2026 04:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.230266
- Title: WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics
- Title(参考訳): WorkflowPerturb: マルチエージェントワークフローメトリクスを評価するための校正されたストレステスト
- Authors: Madhav Kanda, Pedro Las-Casas, Alok Gautam Kumbhare, Rodrigo Fonseca, Sharad Agarwal,
- Abstract要約: ワークフロー評価メトリクスを研究するための制御されたベンチマークを紹介する。
黄金に摂動を施すことで作用する。
我々は,複数の計量系をベンチマークし,その感度とキャリブレーションを,期待されるスコア軌跡と残差を用いて分析する。
本研究は,メトリクスファミリー間の系統的差異を特徴付けるとともに,ワークフロー評価スコアの重大性を考慮した解釈を支援する。
- 参考スコア(独自算出の注目度): 3.353474956121776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based systems increasingly generate structured workflows for complex tasks. In practice, automatic evaluation of these workflows is difficult, because metric scores are often not calibrated, and score changes do not directly communicate the severity of workflow degradation. We introduce WorkflowPerturb, a controlled benchmark for studying workflow evaluation metrics. It works by applying realistic, controlled perturbations to golden workflows. WorkflowPerturb contains 4,973 golden workflows and 44,757 perturbed variants across three perturbation types (Missing Steps, Compressed Steps, and Description Changes), each applied at severity levels of 10%, 30%, and 50%. We benchmark multiple metric families and analyze their sensitivity and calibration using expected score trajectories and residuals. Our results characterize systematic differences across metric families and support severity-aware interpretation of workflow evaluation scores. Our dataset will be released upon acceptance.
- Abstract(参考訳): LLMベースのシステムは、複雑なタスクのための構造化ワークフローをますます生成する。
実際、これらのワークフローの自動評価は、メトリックスコアが校正されないことが多く、スコアの変更がワークフローの劣化の深刻さを直接伝達しないため、難しい。
ワークフロー評価メトリクスを研究するための、制御されたベンチマークであるWorkflowPerturbを紹介します。
リアルで制御された摂動を黄金のワークフローに適用することで機能する。
WorkflowPerturbには4,973のゴールデンワークフローと44,757の摂動型(ミスステップ、圧縮ステップ、記述変更)が含まれており、それぞれ10%、30%、50%の重症度で適用されている。
我々は,複数の計量系をベンチマークし,その感度とキャリブレーションを,期待されるスコア軌跡と残差を用いて分析する。
本研究は,メトリクスファミリー間の系統的差異を特徴付けるとともに,ワークフロー評価スコアの重大性を考慮した解釈を支援する。
私たちのデータセットは受け入れ次第リリースされます。
関連論文リスト
- Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - Instability in Downstream Task Performance During LLM Pretraining [12.840216854750565]
多様なWebスケールコーパスで学習した大規模言語モデル(LLM)における下流タスク性能の安定性について検討する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するために、チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討する。
論文 参考訳(メタデータ) (2025-10-06T14:33:38Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。
我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。
6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文 参考訳(メタデータ) (2024-10-14T17:40:40Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。