論文の概要: Understanding and Optimizing Agentic Workflows via Shapley value
- arxiv url: http://arxiv.org/abs/2502.00510v3
- Date: Tue, 04 Nov 2025 14:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.021446
- Title: Understanding and Optimizing Agentic Workflows via Shapley value
- Title(参考訳): 共有価値によるエージェントワークフローの理解と最適化
- Authors: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Muning Wen, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang,
- Abstract要約: エージェント構成の分析と最適化に協調ゲーム理論を利用する最初のフレームワークであるShapleyFlowを紹介した。
ShagleyFlowは、各コンポーネントのコントリビューションの詳細な属性を可能にし、タスク固有の最適設定の識別を容易にする。
- 参考スコア(独自算出の注目度): 49.508008396810624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic workflows have become the dominant paradigm for building complex AI systems, orchestrating specialized components, such as planning, reasoning, action execution, and reflection, to tackle sophisticated real-world tasks. However, systematically analyzing and optimizing these workflows remains challenging due to intricate component interdependencies and the lack of principled attribution methods. In this work, we introduce ShapleyFlow, the first framework that employs cooperative game theory to analyze and optimize agentic workflows. By applying the Shapley value to evaluate all possible component configurations, ShapleyFlow enables fine-grained attribution of each component's contribution and facilitates the identification of task-specific optimal configurations. Through a constructed dataset evaluated across 7 scenarios, such as navigation, math and OS, we demonstrate 3 key contributions: (1) Theoretical Framework: a principled game-theoretic approach for the attribution of contributions in agentic workflows. (2) Optimal Workflow Discovery: ShapleyFlow identifies task-specific component configurations that consistently outperform workflows relying on a single LLM across all tested tasks. (3) Comprehensive Analysis: we construct and analyze over 1,500 tasks, providing actionable insights and design guidelines for optimizing workflows across multiple domains.
- Abstract(参考訳): エージェントワークフローは、複雑なAIシステムを構築する上で支配的なパラダイムとなり、計画、推論、アクション実行、リフレクションといった特殊なコンポーネントを編成して、洗練された現実世界のタスクに取り組む。
しかし、これらのワークフローを体系的に分析し、最適化することは、複雑なコンポーネント相互依存と原則的帰属法が欠如しているため、依然として困難である。
本稿では,協調ゲーム理論を用いたエージェントワークフローの解析と最適化を行う最初のフレームワークであるShapleyFlowを紹介する。
すべての可能なコンポーネント構成を評価するためにShapley値を適用することで、ShapleyFlowは各コンポーネントのコントリビューションの詳細な属性を可能にし、タスク固有の最適設定の識別を容易にする。
ナビゲーション,数学,OSといった7つのシナリオで評価された構築されたデータセットを通じて,(1)理論的枠組み:エージェントワークフローへの貢献の帰属に対するゲーム理論的アプローチ。
2) 最適なワークフローディスカバリ: ShapleyFlowは、テストされたすべてのタスクに対して単一のLLMに依存するワークフローを一貫して上回るタスク固有のコンポーネント構成を特定します。
3)包括的分析:1500以上のタスクを構築し,分析し,複数のドメインにわたるワークフローを最適化するための実行可能な洞察と設計ガイドラインを提供する。
関連論文リスト
- Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。
既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。
本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T22:42:51Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。
任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。
最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文 参考訳(メタデータ) (2025-05-20T07:08:49Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。
既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。
モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-21T12:06:21Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Towards a Robust Retrieval-Based Summarization System [11.747998334533776]
本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。
最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークです。
LogiSummによって特定された制限に基づいて、トレーニング対話を作成し、堅牢性を高めるためのモデルを微調整する包括的システム SummRAG を開発した。
論文 参考訳(メタデータ) (2024-03-29T00:14:46Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。