論文の概要: Understanding and Optimizing Agentic Workflows via Shapley value
- arxiv url: http://arxiv.org/abs/2502.00510v3
- Date: Tue, 04 Nov 2025 14:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.021446
- Title: Understanding and Optimizing Agentic Workflows via Shapley value
- Title(参考訳): 共有価値によるエージェントワークフローの理解と最適化
- Authors: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Muning Wen, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang,
- Abstract要約: エージェント構成の分析と最適化に協調ゲーム理論を利用する最初のフレームワークであるShapleyFlowを紹介した。
ShagleyFlowは、各コンポーネントのコントリビューションの詳細な属性を可能にし、タスク固有の最適設定の識別を容易にする。
- 参考スコア(独自算出の注目度): 49.508008396810624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic workflows have become the dominant paradigm for building complex AI systems, orchestrating specialized components, such as planning, reasoning, action execution, and reflection, to tackle sophisticated real-world tasks. However, systematically analyzing and optimizing these workflows remains challenging due to intricate component interdependencies and the lack of principled attribution methods. In this work, we introduce ShapleyFlow, the first framework that employs cooperative game theory to analyze and optimize agentic workflows. By applying the Shapley value to evaluate all possible component configurations, ShapleyFlow enables fine-grained attribution of each component's contribution and facilitates the identification of task-specific optimal configurations. Through a constructed dataset evaluated across 7 scenarios, such as navigation, math and OS, we demonstrate 3 key contributions: (1) Theoretical Framework: a principled game-theoretic approach for the attribution of contributions in agentic workflows. (2) Optimal Workflow Discovery: ShapleyFlow identifies task-specific component configurations that consistently outperform workflows relying on a single LLM across all tested tasks. (3) Comprehensive Analysis: we construct and analyze over 1,500 tasks, providing actionable insights and design guidelines for optimizing workflows across multiple domains.
- Abstract(参考訳): エージェントワークフローは、複雑なAIシステムを構築する上で支配的なパラダイムとなり、計画、推論、アクション実行、リフレクションといった特殊なコンポーネントを編成して、洗練された現実世界のタスクに取り組む。
しかし、これらのワークフローを体系的に分析し、最適化することは、複雑なコンポーネント相互依存と原則的帰属法が欠如しているため、依然として困難である。
本稿では,協調ゲーム理論を用いたエージェントワークフローの解析と最適化を行う最初のフレームワークであるShapleyFlowを紹介する。
すべての可能なコンポーネント構成を評価するためにShapley値を適用することで、ShapleyFlowは各コンポーネントのコントリビューションの詳細な属性を可能にし、タスク固有の最適設定の識別を容易にする。
ナビゲーション,数学,OSといった7つのシナリオで評価された構築されたデータセットを通じて,(1)理論的枠組み:エージェントワークフローへの貢献の帰属に対するゲーム理論的アプローチ。
2) 最適なワークフローディスカバリ: ShapleyFlowは、テストされたすべてのタスクに対して単一のLLMに依存するワークフローを一貫して上回るタスク固有のコンポーネント構成を特定します。
3)包括的分析:1500以上のタスクを構築し,分析し,複数のドメインにわたるワークフローを最適化するための実行可能な洞察と設計ガイドラインを提供する。
関連論文リスト
- Workflow-R1: Group Sub-sequence Policy Optimization for Multi-turn Workflow Construction [25.928675237308074]
本稿では,ワークフロー構築を多ターン,自然言語に基づく逐次意思決定プロセスとして再構成するフレームワークであるグラデーション-R1を提案する。
GSsPOは、多ターンエージェントシーケンシャル意思決定タスクの幅広いクラスに一般化可能な構造対応RLアルゴリズムとして機能する。
論文 参考訳(メタデータ) (2026-02-01T12:44:59Z) - Explainable Verification of Hierarchical Workflows Mined from Event Logs with Shapley Values [0.0]
マイニングされたプロセスツリーを論理的仕様に変換し、自動定理証明器を用いて満足度、生存性、安全性などの特性を解析する。
この記事では、ソフトウェアエンジニアリングプラクティスに直接関係するワークフロー分析、コンプライアンスチェックのサポート、プロセス最適化、冗長性低減、次世代プロセスマイニングツールの設計など、新たな方向性を概説する。
論文 参考訳(メタデータ) (2025-12-10T11:57:08Z) - DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。
社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。
結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-09-30T10:36:23Z) - Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。
既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。
本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T22:42:51Z) - Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T09:46:50Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。
任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。
最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文 参考訳(メタデータ) (2025-05-20T07:08:49Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。
既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。
モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-21T12:06:21Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Towards a Robust Retrieval-Based Summarization System [11.747998334533776]
本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。
最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークです。
LogiSummによって特定された制限に基づいて、トレーニング対話を作成し、堅牢性を高めるためのモデルを微調整する包括的システム SummRAG を開発した。
論文 参考訳(メタデータ) (2024-03-29T00:14:46Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。