論文の概要: Failure-Driven Workflow Refinement
- arxiv url: http://arxiv.org/abs/2510.10035v1
- Date: Sat, 11 Oct 2025 05:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.745852
- Title: Failure-Driven Workflow Refinement
- Title(参考訳): 障害駆動ワークフローのリファインメント
- Authors: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Stephen Fan, Ziliang Chen, Keze Wang,
- Abstract要約: CE-Graphは、新しい、障害駆動型精錬プロセスを通じて、このパラダイムを運用するフレームワークである。
数学、コード、QAベンチマークでは、CE-Graphは強いベースラインよりもはるかに低いコストでロバスト性を達成する。
このことは、システムの信頼性が障害を回避することではなく、その障害分布の幾何学的構造を体系的に学習し、再構成することから生じることを示唆している。
- 参考スコア(独自算出の注目度): 11.970401357785677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
- Abstract(参考訳): LLMベースのワークフローの最適化は、一般的にグローバル検索として定式化され、候補ワークフローはスカラーメトリックに基づいて評価される。
しかし、このパラダイムは重大な欠陥、すなわち情報崩壊に悩まされている。
リッチでマルチステップな実行トレースを単純な成功/失敗のシグナルに還元することで、既存のメソッドは障害の基盤構造に盲目になり、ワークフローの障害分布をモデル化するのを根本的に妨げます。
我々はこの課題を分散問題として再認識する。
本研究では,スカラースコアを最大化するのではなく,ワークフローの期待故障量,すなわち高次元故障信号空間(FSS)上で定義される故障確率密度関数の積分を直接最小化することが目的とする新しいパラダイムを提案する。
この分布レンズは、非効率でゼロオーダーの最適化から、故障風景自体の原理的な勾配のような降下へと移行することができる。
CE-Graphは、新しい、障害駆動型精錬プロセスを通じて、このパラダイムを運用するフレームワークである。
CE-Graphは、反例のプールからの障害分布を近似し、最も密集した領域を繰り返し失敗モードとして識別し、ターゲットとなる演算子制約グラフ編集をPropose-and-Verify機構を介して適用し、失敗質量をグリードリーに減少させる。
数学、コード、QAベンチマークでは、CE-Graphは強いベースラインよりもはるかに低いコストで高いロバスト性を達成する。
このことは、システムの信頼性が障害を回避することではなく、その障害分布の幾何学的構造を体系的に学習し、再構成することから生じることを示唆している。
関連論文リスト
- The Unreasonable Effectiveness of Randomized Representations in Online Continual Graph Learning [23.73070470019403]
オンライン連続グラフ学習(OCGL)の主な障害の1つは、破滅的な忘れ方である
我々は、固定されたランダムなエンコーダを用いて、近隣情報を集約することで、堅牢で表現力豊かなノード埋め込みを生成する。
エンコーダを凍結することにより,表現パラメータのドリフトを排除し,表現的かつ安定な埋め込みを得る。
論文 参考訳(メタデータ) (2025-10-08T09:44:14Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - Parameter uncertainties for imperfect surrogate models in the low-noise regime [0.3069335774032178]
我々は、不特定、ほぼ決定論的シュロゲートモデルの一般化誤差を解析する。
遅れた一般化誤差を避けるために、後続分布が全ての訓練点をカバーする必要があることを示す。
これは、原子論的機械学習における1000次元データセットに適用する前に、モデル問題で実証される。
論文 参考訳(メタデータ) (2024-02-02T11:41:21Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。