論文の概要: JudgeFlow: Agentic Workflow Optimization via Block Judge
- arxiv url: http://arxiv.org/abs/2601.07477v1
- Date: Mon, 12 Jan 2026 12:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.380855
- Title: JudgeFlow: Agentic Workflow Optimization via Block Judge
- Title(参考訳): judgeFlow: ブロックジャッジによるエージェントワークフロー最適化
- Authors: Zihan Ma, Zhikai Zhao, Chuanbo Hua, Federico Berto, Jinkyoo Park,
- Abstract要約: 現在の手法は粗大でエンドツーエンドな評価信号に依存しており、どこで精製するかに関する微細な信号が欠如しており、しばしば非効率または低インパクトな修正をもたらす。
本稿では,論理の基本形式を抽出し,問題のあるブロックにランクベースの責任スコアを割り当てる評価最適化更新パイプラインを提案する。
提案手法は, サンプリング効率の向上, ブロックレベルの診断による解釈可能性の向上, ますます複雑化するエージェントの自動化のためのスケーラブルな基盤を提供する。
- 参考スコア(独自算出の注目度): 25.427646436735312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing LLM-based agentic workflows is challenging for scaling AI capabilities. Current methods rely on coarse, end-to-end evaluation signals and lack fine-grained signals on where to refine, often resulting in inefficient or low-impact modifications. To address these limitations, we propose {\our{}}, an Evaluation-Judge-Optimization-Update pipeline. We incorporate reusable, configurable logic blocks into agentic workflows to capture fundamental forms of logic. On top of this abstraction, we design a dedicated Judge module that inspects execution traces -- particularly failed runs -- and assigns rank-based responsibility scores to problematic blocks. These fine-grained diagnostic signals are then leveraged by an LLM-based optimizer, which focuses modifications on the most problematic block in the workflow. Our approach improves sample efficiency, enhances interpretability through block-level diagnostics, and provides a scalable foundation for automating increasingly complex agentic workflows. We evaluate {\our{}} on mathematical reasoning and code generation benchmarks, where {\our{}} achieves superior performance and efficiency compared to existing methods. The source code is publicly available at https://github.com/ma-zihan/JudgeFlow.
- Abstract(参考訳): LLMベースのエージェントワークフローの最適化は、AI能力をスケールアップする上で難しい。
現在の手法は粗大でエンドツーエンドな評価信号に依存しており、どこで精製するかに関する微細な信号が欠如しており、しばしば非効率または低インパクトな修正をもたらす。
これらの制限に対処するため、評価ジャッジ最適化更新パイプラインである {\our{}} を提案する。
再利用可能な構成可能な論理ブロックをエージェントワークフローに組み込んで、基本的な論理形式を捉える。
この抽象化の上に、実行トレース(特に実行が失敗した)を検査する専用のジャッジモジュールを設計し、ランクベースの責任スコアを問題のあるブロックに割り当てます。
これらの微細な診断信号はLLMベースのオプティマイザによって利用され、ワークフローの最も問題のあるブロックに修正を集中する。
提案手法は, サンプリング効率の向上, ブロックレベルの診断による解釈可能性の向上, 複雑化するエージェントワークフローの自動化のためのスケーラブルな基盤を提供する。
数式推論とコード生成のベンチマークで {\our{}} を評価し,既存の手法よりも優れた性能と効率を実現する。
ソースコードはhttps://github.com/ma-zihan/JudgeFlow.comで公開されている。
関連論文リスト
- DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。
社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。
結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-09-30T10:36:23Z) - ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization [51.280919773837645]
エージェントワークフロー最適化のための高性能フレームワークであるScoreFlowを開発した。
ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。
質問応答、コーディング、数学的推論を通じて、既存のベースラインよりも8.2%改善されている。
論文 参考訳(メタデータ) (2025-02-06T18:47:49Z) - AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。
我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。
6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文 参考訳(メタデータ) (2024-10-14T17:40:40Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。